論文の概要: SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.10719v1
- Date: Thu, 11 Dec 2025 14:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.429254
- Title: SpaceDrive: Infusing Spatial Awareness into VLM-based Autonomous Driving
- Title(参考訳): SpaceDrive:VLMによる自律運転に空間認識を注入する
- Authors: Peizheng Li, Zhenghao Zhang, David Holtz, Hang Yu, Yutong Yang, Yuzhi Lai, Rui Song, Andreas Geiger, Andreas Zell,
- Abstract要約: SpaceDriveは、空間情報をテキスト桁トークンの代わりに明示的な位置符号化(PE)として扱う空間認識駆動フレームワークである。
我々は,SpaceDriveがnuScenesデータセットで最先端のオープンループ性能を実現し,Bench2Driveベンチマークで78.02のドライビングスコアを達成したことを示す。
- 参考スコア(独自算出の注目度): 38.21244888074097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end autonomous driving methods built on vision language models (VLMs) have undergone rapid development driven by their universal visual understanding and strong reasoning capabilities obtained from the large-scale pretraining. However, we find that current VLMs struggle to understand fine-grained 3D spatial relationships which is a fundamental requirement for systems interacting with the physical world. To address this issue, we propose SpaceDrive, a spatial-aware VLM-based driving framework that treats spatial information as explicit positional encodings (PEs) instead of textual digit tokens, enabling joint reasoning over semantic and spatial representations. SpaceDrive employs a universal positional encoder to all 3D coordinates derived from multi-view depth estimation, historical ego-states, and text prompts. These 3D PEs are first superimposed to augment the corresponding 2D visual tokens. Meanwhile, they serve as a task-agnostic coordinate representation, replacing the digit-wise numerical tokens as both inputs and outputs for the VLM. This mechanism enables the model to better index specific visual semantics in spatial reasoning and directly regress trajectory coordinates rather than generating digit-by-digit, thereby enhancing planning accuracy. Extensive experiments validate that SpaceDrive achieves state-of-the-art open-loop performance on the nuScenes dataset and the second-best Driving Score of 78.02 on the Bench2Drive closed-loop benchmark over existing VLM-based methods.
- Abstract(参考訳): 視覚言語モデル(VLM)上に構築されたエンドツーエンドの自律運転法は,視覚の普遍的理解と大規模事前学習から得られる強力な推論能力によって,急速な発展を遂げている。
しかし,現在のVLMでは,物理世界と相互作用するシステムの基本的要件である細粒度3次元空間関係の理解に苦慮している。
本研究では,空間情報をテキスト桁のトークンの代わりに明示的な位置符号化(PE)として扱う空間認識型VLM駆動フレームワークであるSpaceDriveを提案する。
SpaceDriveは、多視点深度推定、歴史的エゴ状態、テキストプロンプトから派生したすべての3D座標に普遍的な位置エンコーダを使用する。
これらの3次元PEは、対応する2次元視覚トークンを増やすために最初に重畳される。
一方、それらはタスクに依存しない座標表現として機能し、VLMの入力と出力の両方として桁の数値トークンを置き換える。
このメカニズムにより、空間的推論における特定の視覚的意味論の索引付けがより良くなり、桁単位で生成するのではなく、直接軌道座標を回帰することが可能となり、計画精度が向上する。
大規模な実験により、SpaceDriveはnuScenesデータセットで最先端のオープンループ性能を達成し、既存のVLMベースの手法でBench2Driveのクローズドループベンチマークで78.02の2番目に高いドライビングスコアを達成した。
関連論文リスト
- DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving [24.947943628933036]
本稿では、離散テキストトークンではなく、専用の埋め込みとして数値を表す数値符号化手法であるDriveCodeを紹介する。
DriveCodeは、多数のプロジェクタを使用して、数値を言語モデルの隠れた空間にマッピングし、視覚的およびテキスト的機能とのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2026-03-01T04:41:29Z) - Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-30T16:35:00Z) - SpaceMind: Camera-Guided Modality Fusion for Spatial Reasoning in Vision-Language Models [13.88629412035865]
大規模視覚言語モデル(VLM)は、強いマルチモーダル理解を示すが、3次元空間的推論に苦慮している。
本研究では,RGB入力のみから空間推論を行うために設計されたマルチモーダルな大規模言語モデルであるSpaceMindを提案する。
論文 参考訳(メタデータ) (2025-11-28T11:04:21Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - SpatialRGPT: Grounded Spatial Reasoning in Vision Language Models [68.13636352687257]
VLMの空間知覚と推論能力を高めるために空間領域GPT(SpatialRGPT)を導入する。
推測中、ユーザが指定した領域の提案が提供されると、SpatialRGPTは相対的な方向と距離を正確に知覚できる。
本研究では,空間的推論タスクにおける局所的プロンプトと非局所的プロンプトの双方において,空間的RGPTにより性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2024-06-03T17:59:06Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。