Fugu-MT 論文翻訳(概要): Unifying Language-Action Understanding and Generation for Autonomous Driving

論文の概要: Unifying Language-Action Understanding and Generation for Autonomous Driving

arxiv url: http://arxiv.org/abs/2603.01441v1
Date: Mon, 02 Mar 2026 04:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.679841
Title: Unifying Language-Action Understanding and Generation for Autonomous Driving
Title（参考訳）: 自律運転における言語行動理解と生成の統一化
Authors: Xinyang Wang, Qian Liu, Wenjie Ding, Zhao Yang, Wei Li, Chang Liu, Bailin Li, Kun Zhan, Xianpeng Lang, Wei Chen,
Abstract要約: VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。 LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
参考スコア（独自算出の注目度）: 25.23561391638388
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models are emerging as a promising paradigm for end-to-end autonomous driving, valued for their potential to leverage world knowledge and reason about complex driving scenes. However, existing methods suffer from two critical limitations: a persistent misalignment between language instructions and action outputs, and the inherent inefficiency of typical auto-regressive action generation. In this paper, we introduce LinkVLA, a novel architecture that directly addresses these challenges to enhance both alignment and efficiency. First, we establish a structural link by unifying language and action tokens into a shared discrete codebook, processed within a single multi-modal model. This structurally enforces cross-modal consistency from the ground up. Second, to create a deep semantic link, we introduce an auxiliary action understanding objective that trains the model to generate descriptive captions from trajectories, fostering a bidirectional language-action mapping. Finally, we replace the slow, step-by-step generation with a two-step coarse-to-fine generation method C2F that efficiently decodes the action sequence, saving 86% inference time. Experiments on closed-loop driving benchmarks show consistent gains in instruction following accuracy and driving performance, alongside reduced inference latency.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、エンド・ツー・エンドの自動運転において有望なパラダイムとして浮上している。しかし、既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。本稿では,これらの課題に直接対処し,アライメントと効率を両立させる新しいアーキテクチャであるLinkVLAを紹介する。まず、言語とアクショントークンを共有された離散コードブックに統一し、単一のマルチモーダルモデルで処理することで構造的リンクを確立する。これにより、構造上はクロスモーダルな一貫性が保たれる。第二に、深いセマンティックリンクを作成するために、モデルに軌跡から記述的キャプションを生成するよう訓練し、双方向の言語行動マッピングを育成する補助的行動理解手法を導入する。最後に、動作シーケンスを効率よく復号し、86%の推論時間を節約する2段階粗いC2Fに置き換える。クローズドループ駆動ベンチマークの実験では、推論遅延の低減とともに、精度と駆動性能に従って命令が一貫した増加を示した。

関連論文リスト

LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers [15.4994260281059]
低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。 LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。 LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
論文参考訳（メタデータ） (2026-03-02T16:21:42Z)
Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion [23.834662472392694]
Masked Vision-Language-Action Diffusion for Autonomous Driving (MVLAD-AD)は、効率的な計画と意味論的説明のギャップを埋める新しいフレームワークである。本稿では,実世界の運転分布から,運動的に実現可能なウェイポイントのコンパクトなコードブックを構築するための,離散的なアクショントークン化戦略を提案する。 nuScenesおよび派生ベンチマークの実験により、MVLAD-ADはより優れた効率を実現し、計画精度において最先端の自己回帰的および拡散的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-24T05:59:10Z)
Generative Scenario Rollouts for End-to-End Autonomous Driving [58.99809446189301]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転システムの高効率な計画モデルとして登場している。本稿では,VLAモデルのためのプラグイン・アンド・プレイフレームワークであるGenerative Scenario Rollouts (GeRo)を提案する。
論文参考訳（メタデータ） (2026-01-16T17:59:28Z)
MindDrive: A Vision-Language-Action Model for Autonomous Driving via Online Reinforcement Learning [51.20229133553804]
自律運転における現在のビジョン・ランゲージ・アクション(VLA)パラダイムは主に模倣学習(IL)に依存しているオンライン強化学習は、トライアル・アンド・エラー学習を通じてこれらの問題に対処するための有望な経路を提供する。大規模言語モデル(LLM)と2つの異なるLoRAパラメータからなるVLAフレームワークであるMindDriveを提案する。軌道レベルの報酬を推論空間に戻すことで、MindDriveは、限定的な言語駆動決定の有限セットに対する試行錯誤学習を可能にする。
論文参考訳（メタデータ） (2025-12-15T18:31:32Z)
Latent Chain-of-Thought World Modeling for End-to-End Driving [45.726304769312414]
潜在言語でCoTを表現するモデルであるLatent-CoT-Drive(LCDrive)を提案する。当社のアプローチは,CoT推論と意思決定を,アクションアラインな潜在空間で表現することで統合する。大規模なエンドツーエンド駆動ベンチマークでは、LCDriveはより高速な推論、軌道品質の向上、インタラクティブな強化学習の改善を実現している。
論文参考訳（メタデータ） (2025-12-11T02:22:07Z)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving [55.13109926181247]
離散拡散による安全な軌道生成のためのリフレクション機構を統合した学習ベースのフレームワークであるReflectDriveを紹介する。我々のアプローチの中心は、勾配のない反復的な自己補正を行う、安全を意識した反射機構である。本手法は目標条件付き軌道生成から始まり,マルチモーダル運転動作をモデル化する。
論文参考訳（メタデータ） (2025-09-24T13:35:15Z)
ViLaD: A Large Vision Language Diffusion Framework for End-to-End Autonomous Driving [14.486548540613791]
エンド・ツー・エンド・エンドの自動運転のための新しいLarge Vision Language DiffusionフレームワークであるViLaDを紹介する。 ViLaDは、駆動決定シーケンス全体の並列生成を可能にし、計算遅延を大幅に削減する。我々はnuScenesデータセットの総合的な実験を行い、ViLaDは最先端の自己回帰的VLMベースラインを計画精度と推論速度の両方で上回ります。
論文参考訳（メタデータ） (2025-08-18T04:01:56Z)
ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文参考訳（メタデータ） (2025-06-09T03:14:04Z)
SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文参考訳（メタデータ） (2025-05-22T15:44:30Z)
DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-03-07T11:41:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。