論文の概要: AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
- arxiv url: http://arxiv.org/abs/2506.13757v1
- Date: Mon, 16 Jun 2025 17:58:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.209594
- Title: AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
- Title(参考訳): AutoVLA: 適応推論と強化ファインチューニングによるエンドツーエンド自動運転のためのビジョンランゲージ・アクションモデル
- Authors: Zewei Zhou, Tianhui Cai, Seth Z. Zhao, Yun Zhang, Zhiyu Huang, Bolei Zhou, Jiaqi Ma,
- Abstract要約: Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
- 参考スコア(独自算出の注目度): 42.409352964719204
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in Vision-Language-Action (VLA) models have shown promise for end-to-end autonomous driving by leveraging world knowledge and reasoning capabilities. However, current VLA models often struggle with physically infeasible action outputs, complex model structures, or unnecessarily long reasoning. In this paper, we propose AutoVLA, a novel VLA model that unifies reasoning and action generation within a single autoregressive generation model for end-to-end autonomous driving. AutoVLA performs semantic reasoning and trajectory planning directly from raw visual inputs and language instructions. We tokenize continuous trajectories into discrete, feasible actions, enabling direct integration into the language model. For training, we employ supervised fine-tuning to equip the model with dual thinking modes: fast thinking (trajectory-only) and slow thinking (enhanced with chain-of-thought reasoning). To further enhance planning performance and efficiency, we introduce a reinforcement fine-tuning method based on Group Relative Policy Optimization (GRPO), reducing unnecessary reasoning in straightforward scenarios. Extensive experiments across real-world and simulated datasets and benchmarks, including nuPlan, nuScenes, Waymo, and CARLA, demonstrate the competitive performance of AutoVLA in both open-loop and closed-loop settings. Qualitative results showcase the adaptive reasoning and accurate planning capabilities of AutoVLA in diverse scenarios.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルの進歩は、世界の知識と推論能力を活用することによって、エンドツーエンドの自動運転を約束している。
しかしながら、現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむことが多い。
本稿では,エンドツーエンド自動運転のための単一自己回帰生成モデルにおいて,推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
AutoVLAは、生の視覚入力と言語命令から直接意味論的推論と軌道計画を実行する。
連続的な軌跡を離散的で実現可能なアクションにトークン化し、言語モデルへの直接統合を可能にします。
トレーニングでは、教師付き微調整を用いて、高速思考(軌道のみ)と遅い思考(チェーン・オブ・シークレット推論)という2つの思考モードでモデルを調整します。
計画性能と効率をさらに高めるため,グループ相対政策最適化(GRPO)に基づく強化微調整手法を導入する。
nuPlan、nuScenes、Waymo、CARLAなど、現実世界およびシミュレーションデータセットとベンチマークにわたる大規模な実験は、オープンループとクローズループの両方の設定におけるAutoVLAの競合性能を実証している。
質的な結果は、さまざまなシナリオにおけるAutoVLAの適応推論と正確な計画能力を示している。
関連論文リスト
- DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving [22.293019898794963]
我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。
このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。
本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
論文 参考訳(メタデータ) (2025-05-27T03:21:04Z) - FutureSightDrive: Thinking Visually with Spatio-Temporal CoT for Autonomous Driving [16.588458512862932]
視覚言語モデル(VLM)は、強力な推論能力のため、自動運転への関心が高まっている。
本稿では,モデルが視覚的に考えることを可能にするコテンポラル-T推論手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T09:55:32Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。
平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文 参考訳(メタデータ) (2024-01-10T23:00:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。