論文の概要: DriveMA: Rethinking Language Interfaces in Driving VLAs with One-Step Meta-Actions
- arxiv url: http://arxiv.org/abs/2605.21273v2
- Date: Thu, 21 May 2026 07:58:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.449069
- Title: DriveMA: Rethinking Language Interfaces in Driving VLAs with One-Step Meta-Actions
- Title(参考訳): DriveMA: ワンステップメタアクションでVLAを駆動する際の言語インターフェースの再考
- Authors: Weicheng Zheng, Yixin Huang, Qiao Sun, Derun Li, Hang zhao,
- Abstract要約: 本稿では,一段階の簡潔なメタアクションが冗長推論の代案として有用であることを示す。
本稿では,アクション中心型教師付きトレーニングとターンレベルクレジットアサインメント強化学習フレームワークを組み合わせたDriveMAを提案する。
DriveMAは2Bモデルでエンド・ツー・エンド・ドライブ・チャレンジ(End-to-End Driving Challenge)の新たな最先端を達成し、Rater Feedback Score (RFS)は8.060に達し、4Bバージョンでは8.079に改善されている。
- 参考スコア(独自算出の注目度): 31.04597401352966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driving Vision-Language-Action Models (Driving VLAs) commonly introduce natural-language reasoning as an intermediate interface for end-to-end planning, but reasoning-centric interfaces face three practical bottlenecks: obtaining high-quality reasoning annotations is difficult, generating and understanding long reasoning chains is challenging for compact models, and inference latency is substantially increased. In this paper, we rethink the design of language interfaces in Driving VLAs and show that concise one-step meta-actions are a simple yet effective alternative to verbose reasoning. Meta-actions provide semantic decision grounding while remaining low-entropy, and being automatically derivable from expert trajectories, enabling scalable supervision and reliable trajectory conditioning. Building on this interface, we propose DriveMA, which combines action-centric supervised training with a turn-level credit-assignment reinforcement learning framework that jointly optimizes meta-action correctness, trajectory quality, and trajectory--meta-action consistency. Experiments show that DriveMA already achieves a new state of the art on the Waymo End-to-End Driving Challenge with a 2B model, reaching a Rater Feedback Score (RFS) of 8.060, while its 4B version further improves the state of the art to 8.079; DriveMA also obtains competitive performance on NAVSIM. Ablations demonstrate that one-step meta-actions offer a better practical trade-off between expressiveness, predictability, and inference efficiency than natural-language reasoning or finer-grained action sequences. Code, data, and models will be released to facilitate future research.
- Abstract(参考訳): ドライビング・ビジョン・ランゲージ・アクション・モデル(Driving Vision-Language-Action Models, VLA)は、自然言語推論をエンドツーエンド計画の中間インターフェースとして一般的に導入するが、推論中心インタフェースは3つの実用的なボトルネックに直面している。
本稿では, 駆動型VLAにおける言語インタフェースの設計を再考し, 簡潔な一段階のメタアクションが, 冗長推論に代わる単純かつ効果的な代替手段であることを示す。
メタアクションは、低エントロピーを維持しながらセマンティックな決定基盤を提供し、専門家の軌道から自動的に導出可能であり、スケーラブルな監視と信頼性の高い軌道条件付けを可能にする。
本稿では,動作中心の教師付きトレーニングと,メタアクションの正しさ,軌道品質,軌跡動作の整合性を協調的に最適化するターンレベルクレジット割り当て強化学習フレームワークを組み合わせたDriveMAを提案する。
実験によると、DriveMAはWaymo End-to-End Driving Challengeですでに8.060のRater Feedback Score(RFS)を達成しており、4Bバージョンでは8.079に改善されている。
アブレーションは、一段階のメタアクションが、自然言語の推論やよりきめ細かなアクションシーケンスよりも表現性、予測可能性、推論効率の間の実践的なトレードオフを提供することを示した。
コード、データ、モデルは、将来の研究を促進するためにリリースされます。
関連論文リスト
- Unifying Language-Action Understanding and Generation for Autonomous Driving [25.23561391638388]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。
既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。
LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
論文 参考訳(メタデータ) (2026-03-02T04:41:10Z) - Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。
本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。
nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-24T05:59:10Z) - Vision-Language-Action Models for Autonomous Driving: Past, Present, and Future [125.92052530850425]
VLA(Vision-Language-Action)フレームワークは、認識と言語に基づく意思決定を統合する。
VLAフレームワークは、より解釈可能で、一般化可能で、人間に準拠した運転ポリシーへの道筋を提供する。
この研究は、人間と互換性のある自動運転システムを構築するための一貫性のある基盤を確立することを目的としている。
論文 参考訳(メタデータ) (2025-12-18T16:57:44Z) - Latent Chain-of-Thought World Modeling for End-to-End Driving [45.726304769312414]
潜在言語でCoTを表現するモデルであるLatent-CoT-Drive(LCDrive)を提案する。
当社のアプローチは,CoT推論と意思決定を,アクションアラインな潜在空間で表現することで統合する。
大規模なエンドツーエンド駆動ベンチマークでは、LCDriveはより高速な推論、軌道品質の向上、インタラクティブな強化学習の改善を実現している。
論文 参考訳(メタデータ) (2025-12-11T02:22:07Z) - Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。
我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。
本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文 参考訳(メタデータ) (2025-09-24T13:35:15Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。