論文の概要: SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.10719v1
- Date: Thu, 11 Dec 2025 14:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.429254
- Title: SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving
- Title(参考訳): SpaceDrive:VLMによる自律運転に空間認識を注入する
- Authors: Peizheng Li, Zhenghao Zhang, David Holtz, Hang Yu, Yutong Yang, Yuzhi Lai, Rui Song, Andreas Geiger, Andreas Zell,
- Abstract要約: SpaceDriveは、空間情報をテキスト桁トークンの代わりに明示的な位置符号化(PE)として扱う空間認識駆動フレームワークである。
我々は,SpaceDriveがnuScenesデータセットで最先端のオープンループ性能を実現し,Bench2Driveベンチマークで78.02のドライビングスコアを達成したことを示す。
- 参考スコア(独自算出の注目度): 38.21244888074097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving methods built on vision language models (VLMs) have undergone rapid development driven by their universal visual understanding and strong reasoning capabilities obtained from the large-scale pretraining. However, we find that current VLMs struggle to understand fine-grained 3D spatial relationships which is a fundamental requirement for systems interacting with the physical world. To address this issue, we propose SpaceDrive, a spatial-aware VLM-based driving framework that treats spatial information as explicit positional encodings (PEs) instead of textual digit tokens, enabling joint reasoning over semantic and spatial representations. SpaceDrive employs a universal positional encoder to all 3D coordinates derived from multi-view depth estimation, historical ego-states, and text prompts. These 3D PEs are first superimposed to augment the corresponding 2D visual tokens. Meanwhile, they serve as a task-agnostic coordinate representation, replacing the digit-wise numerical tokens as both inputs and outputs for the VLM. This mechanism enables the model to better index specific visual semantics in spatial reasoning and directly regress trajectory coordinates rather than generating digit-by-digit, thereby enhancing planning accuracy. Extensive experiments validate that SpaceDrive achieves state-of-the-art open-loop performance on the nuScenes dataset and the second-best Driving Score of 78.02 on the Bench2Drive closed-loop benchmark over existing VLM-based methods.
- Abstract(参考訳): 視覚言語モデル(VLM)上に構築されたエンドツーエンドの自律運転法は,視覚の普遍的理解と大規模事前学習から得られる強力な推論能力によって,急速な発展を遂げている。
しかし,現在のVLMでは,物理世界と相互作用するシステムの基本的要件である細粒度3次元空間関係の理解に苦慮している。
本研究では,空間情報をテキスト桁のトークンの代わりに明示的な位置符号化(PE)として扱う空間認識型VLM駆動フレームワークであるSpaceDriveを提案する。
SpaceDriveは、多視点深度推定、歴史的エゴ状態、テキストプロンプトから派生したすべての3D座標に普遍的な位置エンコーダを使用する。
これらの3次元PEは、対応する2次元視覚トークンを増やすために最初に重畳される。
一方、それらはタスクに依存しない座標表現として機能し、VLMの入力と出力の両方として桁の数値トークンを置き換える。
このメカニズムにより、空間的推論における特定の視覚的意味論の索引付けがより良くなり、桁単位で生成するのではなく、直接軌道座標を回帰することが可能となり、計画精度が向上する。
大規模な実験により、SpaceDriveはnuScenesデータセットで最先端のオープンループ性能を達成し、既存のVLMベースの手法でBench2Driveのクローズドループベンチマークで78.02の2番目に高いドライビングスコアを達成した。
関連論文リスト
- SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models [13.88629412035865]
大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
論文 参考訳(メタデータ) (2025-11-28T11:04:21Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。