論文の概要: Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2512.03454v1
- Date: Wed, 03 Dec 2025 05:14:16 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:39.048514
- Title: Think Before You Drive: World Model-Inspired Multimodal Grounding for Autonomous Vehicles
- Title(参考訳): 世界モデルに触発された自動運転車のマルチモーダルグラウンド
- Authors: Haicheng Liao, Huanming Shen, Bonan Wang, Yongkang Li, Yihong Tang, Chengyue Wang, Dingyi Zhuang, Kehua Chen, Hai Yang, Chengzhong Xu, Zhenning Li,
- Abstract要約: ThinkDeeperは、決定を下す前に将来の空間状態を説明するフレームワークである。
Talk2Carのリーダーボードで1位にランクインし、DrivePilot、MoCAD、RefCOCO/+/gベンチマークで最先端のベースラインを上回っている。
さらに、ADにおけるマルチソースVGデータセットであるDrivePilotを紹介し、Retrieval-Augmented Generation (RAG)とChain-of-Thoughtパイプラインによって生成されるセマンティックアノテーションを特徴とする。
- 参考スコア(独自算出の注目度): 34.698147360764104
- License:
- Abstract: Interpreting natural-language commands to localize target objects is critical for autonomous driving (AD). Existing visual grounding (VG) methods for autonomous vehicles (AVs) typically struggle with ambiguous, context-dependent instructions, as they lack reasoning over 3D spatial relations and anticipated scene evolution. Grounded in the principles of world models, we propose ThinkDeeper, a framework that reasons about future spatial states before making grounding decisions. At its core is a Spatial-Aware World Model (SA-WM) that learns to reason ahead by distilling the current scene into a command-aware latent state and rolling out a sequence of future latent states, providing forward-looking cues for disambiguation. Complementing this, a hypergraph-guided decoder then hierarchically fuses these states with the multimodal input, capturing higher-order spatial dependencies for robust localization. In addition, we present DrivePilot, a multi-source VG dataset in AD, featuring semantic annotations generated by a Retrieval-Augmented Generation (RAG) and Chain-of-Thought (CoT)-prompted LLM pipeline. Extensive evaluations on six benchmarks, ThinkDeeper ranks #1 on the Talk2Car leaderboard and surpasses state-of-the-art baselines on DrivePilot, MoCAD, and RefCOCO/+/g benchmarks. Notably, it shows strong robustness and efficiency in challenging scenes (long-text, multi-agent, ambiguity) and retains superior performance even when trained on 50% of the data.
- Abstract(参考訳): ターゲットオブジェクトをローカライズするための自然言語コマンドの解釈は、自律運転(AD)にとって重要である。
既存の自動運転車の視覚的接地法(VG)は、通常3次元空間的関係と予測されるシーンの進化に関する推論が欠如しているため、曖昧で文脈に依存した指示に苦しむ。
本研究では,世界モデルの基本原理を基礎として,未来の空間状態に起因するフレームワークであるThinkDeeperを提案する。
中心となるのが空間認識世界モデル(SA-WM)で、現在のシーンをコマンド対応の潜伏状態に蒸留し、将来の潜伏状態の連続をロールアウトすることで、曖昧さの先進的な手がかりを提供する。
これを完成させると、ハイパーグラフ誘導デコーダが階層的にこれらの状態をマルチモーダル入力で融合し、ロバストなローカライゼーションのために高次空間依存性をキャプチャする。
また,AD におけるマルチソース VG データセットである DrivePilot について紹介し,Retrieval-Augmented Generation (RAG) と Chain-of-Thought (CoT) のプロンプト LLM パイプラインによって生成される意味アノテーションを特徴とする。
大規模な評価では、6つのベンチマークで、ThinkDeeperはTalk2Carのリーダーボードで1位にランクインし、DrivePilot、MoCAD、RefCOCO/+/gベンチマークで最先端のベースラインを上回っている。
特に、挑戦シーン(長文、マルチエージェント、あいまいさ)において強い堅牢性と効率を示し、50%のデータでトレーニングしても優れたパフォーマンスを維持する。
関連論文リスト
- Percept-WAM: Perception-Enhanced World-Awareness-Action Model for Robust End-to-End Autonomous Driving [48.512353531499286]
本稿では,視覚言語モデル(VLM)に2D/3Dシーン理解能力を暗黙的に統合した知覚強調世界認識行動モデルPercept-WAMを紹介する。
我々は,高密度物体知覚のためのグリッド条件付き予測機構を提案し,IoU対応スコアリングと並列自己回帰デコードを導入し,長距離・遠距離・小対象シナリオの安定性を向上させる。
実験により、パーセプションWAMは下流の知覚ベンチマークで古典的な検出器やセグメンタと一致し、2D検出とBEV 3D検出で51.7/58.9 mAPを達成した。
論文 参考訳(メタデータ) (2025-11-24T15:28:25Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Sce2DriveX: A Generalized MLLM Framework for Scene-to-Drive Learning [24.511628941825116]
我々は,人間ライクな駆動チェーン(CoT)推論フレームワークであるSce2DriveXを紹介した。
人間の運転に固有の暗黙の認知連鎖を再構築し、シーン理解、メタアクション推論、行動解釈分析、行動計画および制御をカバーしている。
CARLA Bench2Driveベンチマークでは、シーン理解からエンドツーエンドの駆動まで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-02-19T09:50:44Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - Enhancing End-to-End Autonomous Driving with Latent World Model [78.22157677787239]
本稿では,LAW(Latent World Model)を用いたエンドツーエンド運転のための自己教師型学習手法を提案する。
LAWは、現在の特徴とエゴ軌道に基づいて将来のシーン機能を予測する。
この自己監督タスクは、知覚のない、知覚に基づくフレームワークにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-12T17:59:21Z) - Embodied Understanding of Driving Scenarios [44.21311841582762]
身体的な場面理解は、自律的なエージェントがオープンな運転シナリオを理解し、解釈し、反応するための基盤となる。
本稿では,広い空間空間と時間空間を持つ運転シーンに対するエージェントの理解に適した包括的枠組みであるEmbodied Language Model (ELM)を紹介する。
ELMは、空間的ローカライゼーション能力の強いエージェントを実現するために、空間認識事前トレーニングを組み込んでいる。
論文 参考訳(メタデータ) (2024-03-07T15:39:18Z) - Language-Guided 3D Object Detection in Point Cloud for Autonomous
Driving [91.91552963872596]
我々は,LiDARグラウンディングと呼ばれるマルチモーダルな視覚的グラウンドニングタスクを提案する。
言語特徴を持つLiDARベースの物体検出器を共同で学習し、検出器から直接対象領域を予測する。
私たちの研究は、LiDARベースの接地作業に関する深い洞察を提供しており、自動運転コミュニティにとって有望な方向性を示すものと期待しています。
論文 参考訳(メタデータ) (2023-05-25T06:22:10Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。