論文の概要: Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?
- arxiv url: http://arxiv.org/abs/2509.16654v2
- Date: Sun, 28 Sep 2025 04:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.554404
- Title: Are VLMs Ready for Lane Topology Awareness in Autonomous Driving?
- Title(参考訳): VLMは自動運転におけるレーントポロジの認識に適しているか?
- Authors: Xin Chen, Jia He, Maozheng Li, Dongliang Xu, Tianyu Wang, Yixiao Chen, Zhixin Lin, Yue Yao,
- Abstract要約: VLM(Vision-Language Models)は、最近、マルチモーダル推論において顕著な進歩を示したが、自動運転におけるその応用は限定的である。
本研究では,道路トポロジ理解におけるVLMの能力を体系的に評価する。
- 参考スコア(独自算出の注目度): 17.325365876089602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have recently shown remarkable progress in multimodal reasoning, yet their applications in autonomous driving remain limited. In particular, the ability to understand road topology, a key requirement for safe navigation, has received relatively little attention. While some recent works have begun to explore VLMs in driving contexts, their performance on topology reasoning is far from satisfactory. In this work, we systematically evaluate VLMs' capabilities in road topology understanding. Specifically, multi-view images are projected into unified ground-plane coordinate system and fused into bird's-eye-view (BEV) lanes. Based on these BEV lanes, we formulate four topology-related diagnostic VQA tasks, which together capture essential components of spatial topology reasoning. Through extensive evaluation, we find that while frontier closed-source models (e.g., GPT-4o) achieve relatively high accuracy in some tasks, they still fail in some temporal questions that humans can answer (e.g., GPT-4o achieve only 67.8% in vector, a two-class classification problem). Furthermore, we find open-source VLMs, even at 30B scale, struggle significantly. These results indicate that spatial reasoning remains a fundamental bottleneck for current VLMs. We also find that the model's capability is positively correlated with model size, length of reasoning tokens and shots provided as examples, showing direction for future research.
- Abstract(参考訳): VLM(Vision-Language Models)は、最近、マルチモーダル推論において顕著な進歩を示したが、自動運転におけるその応用は限定的である。
特に安全な航法のための重要な要件である道路トポロジを理解する能力には,比較的注意が払われていない。
いくつかの最近の研究は、VLMを駆動する状況において探求し始めているが、トポロジ推論における彼らのパフォーマンスは、決して満足のいくものではない。
本研究では,道路トポロジ理解におけるVLMの能力を体系的に評価する。
具体的には、多視点画像を統一された地平面座標系に投影し、鳥眼視線(BEV)に融合させる。
これらのBEVレーンに基づいて、4つの位相関連診断VQAタスクを定式化し、空間トポロジー推論の重要な要素をまとめる。
広範囲な評価により、フロンティアクローズソースモデル(例えば、GPT-4o)は、いくつかのタスクにおいて比較的高い精度を達成するが、それでも、人間が答えられる時間的問題(例えば、GPT-4oはベクトルの67.8%しか達成していない)で失敗することがわかった。
さらに、オープンソースのVLMは、30Bスケールであっても、かなり苦労しています。
これらの結果は、空間的推論が現在のVLMの基本的なボトルネックであることを示している。
また,モデルの性能はモデルのサイズ,推論トークンの長さ,ショットの例と正の相関を示し,今後の研究の方向性を示す。
関連論文リスト
- NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models [11.184459657989914]
シーン理解のためのマルチビュー・マルチモーダル評価ベンチマークであるNuPlanQA-Evalを紹介する。
また,NuPlanQA-1Mは,実世界の視覚的質問応答(VQA)ペア100万個からなる大規模データセットである。
評価の結果,エゴ中心の視点から,既存のMLLMがシーン特有の知覚と空間的推論を駆動する上で直面する重要な課題が明らかになった。
論文 参考訳(メタデータ) (2025-03-17T03:12:39Z) - Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - TopViewRS: Vision-Language Models as Top-View Spatial Reasoners [38.406430696146714]
トップビューの視点は、人間が様々な種類の地図を読み、推論する典型的な方法である。
11,384の質問からなるTopViewRSデータセットを視覚入力として,現実的あるいは意味的なトップビューマップで紹介する。
次に、異なるレベルの複雑さを持つ4つの知覚と推論タスクにわたるVLMの研究と評価に使用します。
論文 参考訳(メタデータ) (2024-06-04T17:55:43Z) - SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning
Capabilities [59.39858959066982]
空間的関係についての理解と推論は、視覚質問応答(VQA)とロボット工学の基本的な能力である。
我々は,1000万枚の実画像に対して,最大20億個のVQAサンプルをスケール可能な3次元空間VQAデータ自動生成フレームワークを開発した。
このようなデータに基づいてVLMを訓練することにより、定性的空間的VQAと定量的空間的VQAの両方において、その能力を大幅に向上する。
論文 参考訳(メタデータ) (2024-01-22T18:01:01Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - TopoMLP: A Simple yet Strong Pipeline for Driving Topology Reasoning [51.29906807247014]
トポロジー推論は、道路シーンを理解し、自律運転における乾燥可能なルートを提示することを目的としている。
道路の中心線(車線)と交通要素を検出し、そのトポロジの関係、すなわち車線-車線トポロジと車線-交通トポロジを推論する必要がある。
トポロジー性能の上限を拡張するために,強力な3次元レーン検出器と改良された2次元交通要素検出器を導入する。
論文 参考訳(メタデータ) (2023-10-10T16:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。