論文の概要: Spatial-aware Vision Language Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.24331v1
- Date: Tue, 30 Dec 2025 16:35:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.430906
- Title: Spatial-aware Vision Language Model for Autonomous Driving
- Title(参考訳): 自律運転のための空間認識型視覚言語モデル
- Authors: Weijie Wei, Zhipeng Luo, Ling Feng, Venice Erin Liong,
- Abstract要約: VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
- 参考スコア(独自算出の注目度): 16.149511148218497
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Vision-Language Models (VLMs) show significant promise for end-to-end autonomous driving by leveraging the common sense embedded in language models, their reliance on 2D image cues for complex scene understanding and decision-making presents a critical bottleneck for safety and reliability. Current image-based methods struggle with accurate metric spatial reasoning and geometric inference, leading to unreliable driving policies. To bridge this gap, we propose LVLDrive (LiDAR-Vision-Language), a novel framework specifically designed to upgrade existing VLMs with robust 3D metric spatial understanding for autonomous driving by incoperating LiDAR point cloud as an extra input modality. A key challenge lies in mitigating the catastrophic disturbance introduced by disparate 3D data to the pre-trained VLMs. To this end, we introduce a Gradual Fusion Q-Former that incrementally injects LiDAR features, ensuring the stability and preservation of the VLM's existing knowledge base. Furthermore, we develop a spatial-aware question-answering (SA-QA) dataset to explicitly teach the model advanced 3D perception and reasoning capabilities. Extensive experiments on driving benchmarks demonstrate that LVLDrive achieves superior performance compared to vision-only counterparts across scene understanding, metric spatial perception, and reliable driving decision-making. Our work highlights the necessity of explicit 3D metric data for building trustworthy VLM-based autonomous systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自律運転を大いに約束する一方で、複雑なシーン理解と意思決定のために2Dイメージキューへの依存は、安全性と信頼性にとって重要なボトルネックとなる。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
このギャップを埋めるために、LVLDrive(LiDAR-Vision-Language)を提案する。LVLDriveは、LiDAR点雲を余分な入力モダリティとして組み合わせることで、既存のVLMを堅牢な3次元空間的理解でアップグレードするように設計された新しいフレームワークである。
重要な課題は、3Dデータを事前訓練されたVLMに分散させることによって引き起こされる破滅的な障害を緩和することである。
この目的のために、我々は、段階的にLiDAR機能を注入し、VLMの既存の知識基盤の安定性と保存を確実にするGradual Fusion Q-Formerを導入する。
さらに,空間認識型質問応答(SA-QA)データセットを開発し,モデルに高度な3次元知覚と推論能力を明示的に教える。
ドライビングベンチマークに関する大規模な実験により、LVLDriveはシーン理解、距離空間知覚、信頼性の高いドライビング意思決定など、視覚のみに比較して優れた性能を発揮することが示された。
我々の研究は、信頼性の高いVLMベースの自律システムを構築するために、明示的な3Dメトリックデータの必要性を強調している。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - VLM-3D:End-to-End Vision-Language Models for Open-World 3D Perception [5.245213543721097]
本稿では,自律走行シナリオにおける3次元幾何学的認識を可能にする最初のエンドツーエンドフレームワークであるVLM-3Dを提案する。
VLM-3Dはローランド適応(LoRA)を導入し、最小計算オーバーヘッドのタスクにVLMを効率よく適応させる。
VLM-3Dにおける関節意味・幾何学的損失が12.8%の知覚精度向上につながることを示す。
論文 参考訳(メタデータ) (2025-08-12T16:25:27Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving [10.41584658117874]
自律運転における視覚言語モデル(VLM)の空間的理解と推論能力を評価するために設計された,第1の大規模地下構造に基づく質問応答(QA)ベンチマークであるNuScenes-SpatialQAを提案する。
NuScenesデータセットに基づいて構築されたこのベンチマークは、自動化された3Dシーングラフ生成パイプラインとQA生成パイプラインによって構築される。
このベンチマークを用いて、汎用モデルと空間拡張モデルの両方を含む多様なVLMに関する広範な実験を行い、自律運転における空間能力を総合的に評価した。
論文 参考訳(メタデータ) (2025-04-04T04:43:10Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。