Fugu-MT 論文翻訳(概要): A Survey on Vision-Language-Action Models for Autonomous Driving

論文の概要: A Survey on Vision-Language-Action Models for Autonomous Driving

arxiv url: http://arxiv.org/abs/2506.24044v1
Date: Mon, 30 Jun 2025 16:50:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 21:27:54.162768
Title: A Survey on Vision-Language-Action Models for Autonomous Driving
Title（参考訳）: 自律運転における視覚・言語・行動モデルの検討
Authors: Sicong Jiang, Zilin Huang, Kangan Qian, Ziang Luo, Tianze Zhu, Yang Zhong, Yihong Tang, Menglin Kong, Yunlong Wang, Siwen Jiao, Hao Ye, Zihao Sheng, Xin Zhao, Tuopu Wen, Zheng Fu, Sikai Chen, Kun Jiang, Diange Yang, Seongjin Choi, Lijun Sun,
Abstract要約: VLA(Vision-Language-Action)パラダイムは、視覚知覚、自然言語理解、制御を単一のポリシーに統合する。自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。この調査は、VLA for Autonomous Drivingの最初の包括的な概要を提供する。
参考スコア（独自算出の注目度）: 26.407082158880204
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The rapid progress of multimodal large language models (MLLM) has paved the way for Vision-Language-Action (VLA) paradigms, which integrate visual perception, natural language understanding, and control within a single policy. Researchers in autonomous driving are actively adapting these methods to the vehicle domain. Such models promise autonomous vehicles that can interpret high-level instructions, reason about complex traffic scenes, and make their own decisions. However, the literature remains fragmented and is rapidly expanding. This survey offers the first comprehensive overview of VLA for Autonomous Driving (VLA4AD). We (i) formalize the architectural building blocks shared across recent work, (ii) trace the evolution from early explainer to reasoning-centric VLA models, and (iii) compare over 20 representative models according to VLA's progress in the autonomous driving domain. We also consolidate existing datasets and benchmarks, highlighting protocols that jointly measure driving safety, accuracy, and explanation quality. Finally, we detail open challenges - robustness, real-time efficiency, and formal verification - and outline future directions of VLA4AD. This survey provides a concise yet complete reference for advancing interpretable socially aligned autonomous vehicles. Github repo is available at \href{https://github.com/JohnsonJiang1996/Awesome-VLA4AD}{SicongJiang/Awesome-VLA4AD}.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、視覚知覚、自然言語理解、制御を単一のポリシーで統合するビジョン・ランゲージ・アクション(VLA)パラダイムの道を開いた。自動運転車の研究者たちは、これらの方法を車の領域に積極的に適応させている。このようなモデルは、ハイレベルな指示を解釈し、複雑な交通シーンを推論し、独自の判断を下せる自動運転車を約束する。しかし、文学は断片化され、急速に拡大している。この調査は、VLA for Autonomous Driving (VLA4AD)の最初の包括的な概要を提供する。我が家 (i)近年の作業で共有される建築ブロックを形式化する。 (II)初期の説明から推論中心のVLAモデルへの進化を辿り、三自律運転領域におけるVLAの進歩に応じて、20以上の代表モデルを比較する。また、既存のデータセットとベンチマークを統合し、運転の安全性、正確性、説明品質を共同で測定するプロトコルを強調します。最後に、ロバスト性、リアルタイム効率、正式な検証といったオープンな課題を詳述し、VLA4ADの今後の方向性を概説する。この調査は、解釈可能な社会的に整合した自動運転車を前進させるための簡潔で完全なリファレンスを提供する。 Githubリポジトリは \href{https://github.com/JohnsonJiang1996/Awesome-VLA4AD}{SicongJiang/Awesome-VLA4AD} で公開されている。

関連論文リスト

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文参考訳（メタデータ） (2025-03-27T22:23:04Z)
SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models [63.71984266104757]
我々は、構造化されていない知識と構造化されていない知識の両方を取り入れることで、MLLMベースの自動運転を強化するフレームワークであるSafeAutoを提案する。安全知識を明示的に統合するため,交通ルールを一階述語論理に変換する推論コンポーネントを開発した。我々のマルチモーダル検索・拡張生成モデルは、過去の運転経験から学ぶために、ビデオ、制御信号、環境特性を活用する。
論文参考訳（メタデータ） (2025-02-28T21:53:47Z)
The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。 DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文参考訳（メタデータ） (2025-02-14T18:43:15Z)
V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models [31.537045261401666]
本稿では,多モード大規模言語モデルと協調自律運転を統合した新しい問題設定を提案する。また,V2V-LLM(V2V-LLM)のベースライン手法を提案する。実験結果から,提案するV2V-LLMは,協調運転における様々なタスクを遂行する上で,有望な統一モデルアーキテクチャとなる可能性が示唆された。
論文参考訳（メタデータ） (2025-02-14T08:05:41Z)
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving [1.727597257312416]
CoVLA(Comprehensive Vision-Language-Action)データセットは、80時間以上にわたる現実世界の運転ビデオで構成されている。このデータセットは、堅牢で解釈可能で、データ駆動の自動運転システムのためのフレームワークを確立する。
論文参考訳（メタデータ） (2024-08-19T09:53:49Z)
SimpleLLM4AD: An End-to-End Vision-Language Model with Graph Visual Question Answering for Autonomous Driving [15.551625571158056]
我々はSimpleLLM4ADと呼ばれるe2eAD法を提案する。本手法では,e2eADタスクは知覚,予測,計画,行動の4段階に分けられる。我々の実験は、SimpleLLM4ADが複雑な運転シナリオで競合性能を達成することを示した。
論文参考訳（メタデータ） (2024-07-31T02:35:33Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
エンボディードAIは、人工知能の重要な要素として広く認識されている。組込みAIにおける言語条件ロボットタスクに対処するために、マルチモーダルモデルの新たなカテゴリが登場した。具体的AIのための視覚-言語-アクションモデルに関する第1回調査を示す。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving [0.0]
我々は,自律運転のための視覚質問応答を行う,効率的で軽量な多フレーム視覚言語モデルを開発した。従来のアプローチと比較して、EM-VLM4ADは少なくとも10倍のメモリと浮動小数点演算を必要とする。
論文参考訳（メタデータ） (2024-03-28T21:18:33Z)
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving [37.617793990547625]
本報告では,最新のVLMであるGPT-4Vの徹底的な評価を行う。我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。 GPT-4Vは,既存の自律システムと比較して,シーン理解や因果推論において優れた性能を示した。
論文参考訳（メタデータ） (2023-11-09T12:58:37Z)
LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文参考訳（メタデータ） (2023-11-02T07:23:33Z)
DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。 DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文参考訳（メタデータ） (2023-10-02T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。