論文の概要: Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
- arxiv url: http://arxiv.org/abs/2512.16760v2
- Date: Sun, 04 Jan 2026 12:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.410568
- Title: Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future
- Title(参考訳): 自動運転のための視覚・言語・アクションモデル:過去・現在・未来
- Authors: Tianshuai Hu, Xiaolu Liu, Song Wang, Yiyao Zhu, Ao Liang, Lingdong Kong, Guoyang Zhao, Zeying Gong, Jun Cen, Zhiyu Huang, Xiaoshuai Hao, Linfeng Li, Hang Song, Xiangtai Li, Jun Ma, Shaojie Shen, Jianke Zhu, Dacheng Tao, Ziwei Liu, Junwei Liang,
- Abstract要約: VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
- 参考スコア(独自算出の注目度): 125.92052530850425
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Autonomous driving has long relied on modular "Perception-Decision-Action" pipelines, where hand-crafted interfaces and rule-based components often break down in complex or long-tailed scenarios. Their cascaded design further propagates perception errors, degrading downstream planning and control. Vision-Action (VA) models address some limitations by learning direct mappings from visual inputs to actions, but they remain opaque, sensitive to distribution shifts, and lack structured reasoning or instruction-following capabilities. Recent progress in Large Language Models (LLMs) and multimodal learning has motivated the emergence of Vision-Language-Action (VLA) frameworks, which integrate perception with language-grounded decision making. By unifying visual understanding, linguistic reasoning, and actionable outputs, VLAs offer a pathway toward more interpretable, generalizable, and human-aligned driving policies. This work provides a structured characterization of the emerging VLA landscape for autonomous driving. We trace the evolution from early VA approaches to modern VLA frameworks and organize existing methods into two principal paradigms: End-to-End VLA, which integrates perception, reasoning, and planning within a single model, and Dual-System VLA, which separates slow deliberation (via VLMs) from fast, safety-critical execution (via planners). Within these paradigms, we further distinguish subclasses such as textual vs. numerical action generators and explicit vs. implicit guidance mechanisms. We also summarize representative datasets and benchmarks for evaluating VLA-based driving systems and highlight key challenges and open directions, including robustness, interpretability, and instruction fidelity. Overall, this work aims to establish a coherent foundation for advancing human-compatible autonomous driving systems.
- Abstract(参考訳): 自律運転は長年、手作りのインターフェースとルールベースのコンポーネントが複雑なシナリオや長いシナリオに分解される、モジュラーな"知覚-決定-アクション"パイプラインに依存してきた。
彼らのケースドデザインは、認識エラーをさらに伝播させ、下流の計画と制御を低下させる。
ビジョン・アクション(VA)モデルは、視覚入力からアクションへの直接マッピングを学ぶことでいくつかの制限に対処するが、それらは不透明であり、分布シフトに敏感であり、構造的推論や命令追従能力に欠ける。
大規模言語モデル(LLM)とマルチモーダル学習の最近の進歩は、言語に基づく意思決定と認識を統合するビジョン・ランゲージ・アクション(VLA)フレームワークの出現を動機付けている。
視覚的理解、言語的推論、行動可能なアウトプットを統一することにより、VLAはより解釈可能で、一般化可能で、人間に沿った運転ポリシーへの道筋を提供する。
この研究は、自律運転のための新たなVLA景観の構造化された特徴を提供する。
我々は、初期のVAアプローチから現代のVLAフレームワークへの進化を辿り、既存のメソッドを2つの主要なパラダイムに分類する: 知覚、推論、計画を単一のモデルに統合するEnd-to-End VLAと、(VLMを通じて)遅い議論を(プランナーを介して)高速で安全に重要な実行から分離するDual-System VLA。
これらのパラダイムの中では、テキスト対数値アクションジェネレータや明示対暗黙誘導機構といったサブクラスをさらに区別する。
また、VLAベースの運転システムを評価するための代表的データセットとベンチマークを要約し、堅牢性、解釈可能性、命令忠実性など、重要な課題とオープンな方向性を強調します。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
関連論文リスト
- SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving [10.980525810871827]
本稿では,シーン適応型視覚ランゲージ・アクション・フレームワークであるSAMoE-VLAを提案する。
私たちのキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き出すことです。
本研究では,世界認知,知覚,言語,行動の時間的一貫した推論を支援するために,条件付きクロスモーダル因果注意機構を導入する。
論文 参考訳(メタデータ) (2026-03-09T08:54:03Z) - AutoFly: Vision-Language-Action Model for UAV Autonomous Navigation in the Wild [62.47761809929869]
視覚言語ナビゲーション(VLN)は、視覚的観察とともに言語指示を解釈することで、知的エージェントが環境をナビゲートする必要がある。
無人航空機(UAV)の現在のVLN研究は、所定のルートに沿ってUAVを誘導するための詳細な指示に依存している。
本稿では,自律型UAVナビゲーションのためのエンド・ツー・エンドのビジョン・ランゲージ・アクションモデルであるAutoFlyを提案する。
論文 参考訳(メタデータ) (2026-02-10T11:08:07Z) - SGDrive: Scene-to-Goal Hierarchical World Cognition for Autonomous Driving [52.02379432801349]
本稿では,運転特化知識階層に関するVLMの表現学習を構築する新しいフレームワークであるSGDriveを提案する。
トレーニング済みのVLMバックボーン上に構築されたSGDriveは、人間の運転認知を反映するシーンエージェントゴール階層に、駆動理解を分解する。
論文 参考訳(メタデータ) (2026-01-09T08:55:42Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - A Survey on Vision-Language-Action Models for Autonomous Driving [26.407082158880204]
VLA(Vision-Language-Action)パラダイムは、視覚知覚、自然言語理解、制御を単一のポリシーに統合する。
自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。
この調査は、VLA for Autonomous Drivingの最初の包括的な概要を提供する。
論文 参考訳(メタデータ) (2025-06-30T16:50:02Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。