論文の概要: More Than Meets the Eye? Uncovering the Reasoning-Planning Disconnect in Training Vision-Language Driving Models
- arxiv url: http://arxiv.org/abs/2510.04532v1
- Date: Mon, 06 Oct 2025 06:50:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.713964
- Title: More Than Meets the Eye? Uncovering the Reasoning-Planning Disconnect in Training Vision-Language Driving Models
- Title(参考訳): 視線をもっと超える? 視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線・視線)
- Authors: Xurui Song, Shuo Huai, JingJing Jiang, Jiayi Kong, Jun Luo,
- Abstract要約: 私たちは、計画整合型チェーン・オブ・ソート(CoT)を備えた大規模運転型視覚質問応答(VQA)コーパスであるDriveMindを構築した。
我々の結果は、残念ながら、推論計画における一貫した因果切断を示している。
本稿では, 因果媒介者というよりは, 習熟推論は補助的副産物である, という仮説を提唱する。
- 参考スコア(独自算出の注目度): 14.964195894958133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Model (VLM) driving agents promise explainable end-to-end autonomy by first producing natural-language reasoning and then predicting trajectory planning. However, whether planning is causally driven by this reasoning remains a critical but unverified assumption. To investigate this, we build DriveMind, a large-scale driving Visual Question Answering (VQA) corpus with plan-aligned Chain-of-Thought (CoT), automatically generated from nuPlan. Our data generation process converts sensors and annotations into structured inputs and, crucially, separates priors from to-be-reasoned signals, enabling clean information ablations. Using DriveMind, we train representative VLM agents with Supervised Fine-Tuning (SFT) and Group Relative Policy Optimization (GRPO) and evaluate them with nuPlan's metrics. Our results, unfortunately, indicate a consistent causal disconnect in reasoning-planning: removing ego/navigation priors causes large drops in planning scores, whereas removing CoT produces only minor changes. Attention analysis further shows that planning primarily focuses on priors rather than the CoT. Based on this evidence, we propose the Reasoning-Planning Decoupling Hypothesis, positing that the training-yielded reasoning is an ancillary byproduct rather than a causal mediator. To enable efficient diagnosis, we also introduce a novel, training-free probe that measures an agent's reliance on priors by evaluating its planning robustness against minor input perturbations. In summary, we provide the community with a new dataset and a diagnostic tool to evaluate the causal fidelity of future models.
- Abstract(参考訳): VLM(Vision-Language Model)駆動エージェントは、自然言語推論を初めて生成し、軌道計画を予測することによって、説明可能なエンドツーエンドの自律性を約束する。
しかしながら、この推論によって計画が慎重に進められているかどうかについては、依然として批判的だが検証されていない仮定である。
これを調べるため,我々は nuPlan から自動生成される計画整合型 Chain-of-Thought (CoT) を用いた大規模運転型視覚質問応答コーパスである DriveMind を構築した。
我々のデータ生成プロセスは、センサとアノテーションを構造化された入力に変換し、重要な点として、事前情報を推論された信号から分離し、クリーンな情報短縮を可能にする。
DriveMindを用いて、スーパーバイザードファインチューニング(SFT)とグループ相対ポリシー最適化(GRPO)で代表的VLMエージェントを訓練し、nuPlanのメトリクスで評価する。
その結果,エゴ/ナビゲーション事前の除去は,計画スコアの大きな低下を引き起こすが,CoTの除去はわずかな変化しか生じない,という一貫した因果関係が示唆された。
注意分析は、プランニングがCoTよりも優先されることを示している。
この証拠に基づき, 因果媒介者というよりは, 訓練による利得推論は補助的副産物であると仮定して, 推論・プランニング・デカップリング仮説を提案する。
また,より効率的な診断を可能にするために,エージェントの事前信頼度を計測し,その計画的ロバスト性を小入力摂動に対して評価する,新しい非訓練型プローブを導入する。
要約すると、我々はコミュニティに、将来のモデルの因果的忠実度を評価するための新しいデータセットと診断ツールを提供する。
関連論文リスト
- Language Model Planning from an Information Theoretic Perspective [31.323156960716826]
デコーダのみの言語モデル(LM)は、コヒーレントな長距離生成をサポートするために中間計算を編成する。
計画には、長い地平線上で計算を構造化し、複数の可能な継続を考慮し、過去の情報を選択的に再利用することが含まれる。
我々は、合成文法、パスフィニングタスク、自然言語データセットにわたるLMにおける計画について研究する。
論文 参考訳(メタデータ) (2025-09-28T01:58:15Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Beyond Patterns: Harnessing Causal Logic for Autonomous Driving Trajectory Prediction [10.21659221112514]
本稿では、因果推論を利用して予測堅牢性、一般化、精度を向上させる新しい軌道予測フレームワークを提案する。
本研究は、軌跡予測の因果推論の可能性を強調し、ロバストな自律運転システムへの道を開くものである。
論文 参考訳(メタデータ) (2025-05-11T05:56:07Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? [84.17711168595311]
エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究の方向性として浮上している。
比較的単純な駆動シナリオを特徴とするnuScenesデータセットは、エンド・ツー・エンド・モデルにおける知覚情報の未使用化につながる。
予測軌跡が道路に付着するかどうかを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:31Z) - Rethinking the Open-Loop Evaluation of End-to-End Autonomous Driving in
nuScenes [38.43491956142818]
計画課題は、内部意図と外部環境の両方からの入力に基づいて、エゴ車両の軌道を予測することである。
既存の研究の多くは、予測された軌道と地上の真実との衝突率とL2誤差を用いて、nuScenesデータセット上での性能を評価する。
本稿では,これらの既存の評価指標を再評価し,異なる手法の優越性を正確に測定するかどうかを検討する。
我々の単純な手法は、nuScenesデータセットと他の知覚に基づく手法と同じようなエンド・ツー・エンドの計画性能を実現し、平均L2誤差を約20%削減する。
論文 参考訳(メタデータ) (2023-05-17T17:59:11Z) - Control-Aware Prediction Objectives for Autonomous Driving [78.19515972466063]
本研究では,制御に対する予測の下流効果を評価するための制御認識予測目標(CAPOs)を提案する。
本稿では,エージェント間の注意モデルを用いた重み付けと,予測軌跡を接地真実軌跡に交換する際の制御変動に基づく重み付けの2つの方法を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。