論文の概要: GeoDrive-Bench: Benchmarking Region-Specific Multimodal Reasoning in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2606.02774v1
- Date: Mon, 01 Jun 2026 18:36:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.701368
- Title: GeoDrive-Bench: Benchmarking Region-Specific Multimodal Reasoning in Autonomous Driving
- Title(参考訳): GeoDrive-Bench: 自律運転における領域特異的マルチモーダル推論のベンチマーク
- Authors: Yingzi Ma, Chaowei Xiao, Ming Jiang,
- Abstract要約: 自動運転のための視覚言語モデル(VLM)は有望な性能を示しているが、地域固有の交通ルールを扱う能力はいまだ探索されていない。
本稿では,VLMの地理文化的根拠に基づく運転推論の体系的調査を可能にする新しいベンチマークであるGeoDrive-Benchを紹介する。
- 参考スコア(独自算出の注目度): 43.04860654830679
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) for autonomous driving have shown promising performance, but their ability to handle region-specific traffic rules remains underexplored, raising uncertainties about their deployment across diverse global settings. We therefore introduce GeoDrive-Bench, a novel benchmark that enables the systematic investigation of VLMs' geo-culturally grounded driving reasoning. We curated 5,053 human-validated multiple-choice QA pairs across six countries covering diverse driving cultures. Specifically, we emphasize four driving tasks: perception, prediction, planning, and region reasoning. Each question requires models to infer the correct driving behavior from visual evidence and local traffic conventions without explicit country labels. Beyond evaluation, we further design a distillation algorithm that injects region-specific traffic-rule knowledge into the internal representations of VLMs, enabling models to better align visual scene understanding with local driving policies. Experiments on nine state-of-the-art VLMs show substantial performance variations across geo-driving cultures for each task, while our proposed baseline models exhibit improved geo-cultural reasoning across regions. These results suggest that current VLMs still lack robust region-aware driving intelligence and highlight GeoDrive-Bench as a diagnostic and training-oriented testbed for deployable autonomous driving foundation models.
- Abstract(参考訳): 自動運転のための視覚言語モデル(VLM)は、有望なパフォーマンスを示しているが、リージョン固有のトラフィックルールを扱う能力はまだ探索されていない。
そこで本稿では,VLMの地理的背景に基づく運転推論の体系的な研究を可能にする新しいベンチマークであるGeoDrive-Benchを紹介する。
多様な運転文化をカバーする6つの国で5,053人の人型多目的QAペアを採取した。
具体的には、認識、予測、計画、地域推論という4つの駆動タスクを強調します。
それぞれの質問は、明確なカントリーラベルなしで視覚的証拠や地元の交通慣行から正しい運転行動を推測するモデルを必要とする。
評価以外にも,VLMの内部表現に領域固有の交通ルール知識を注入する蒸留アルゴリズムを設計し,視覚的シーン理解とローカルな運転ポリシーとの整合性を高める。
現状の9つのVLM実験では,各タスクのジオドライブ文化にかなりの性能変化がみられ,提案するベースラインモデルでは地域ごとのジオカルチャー推論の改善が見られた。
これらの結果から,現在のVLMには領域認識型運転インテリジェンスがないことが示唆され,GeoDrive-Benchは自律運転基盤モデルをデプロイするための診断およびトレーニング指向テストベッドとして注目されている。
関連論文リスト
- The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - On the Road with GPT-4V(ision): Early Explorations of Visual-Language
Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。
我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。
GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-09T12:58:37Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Learning to Drive Anywhere [38.547150940396904]
地理的に認識された条件付き模倣学習モデルであるAnyDを提案する。
我々の重要な洞察は、高容量なジオロケーションベースのチャネルアテンションメカニズムを導入することである。
提案手法は、本質的に不均衡なデータ分布と位置依存イベントを効率的にスケールすることができる。
論文 参考訳(メタデータ) (2023-09-21T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。