論文の概要: AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.14851v1
- Date: Mon, 16 Mar 2026 05:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.076689
- Title: AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving
- Title(参考訳): AutoMoT: エンド・ツー・エンド自動運転のための非同期混合変圧器を用いた統合ビジョンランゲージ・アクションモデル
- Authors: Wenhui Huang, Songyan Zhang, Qihang Huang, Zhidong Wang, Zhiqi Mao, Collister Chua, Zhan Chen, Long Chen, Chen Lv,
- Abstract要約: OURSは、単一の視覚言語アクション(VLA)モデルで推論とアクション生成を統合するエンドツーエンドのADフレームワークである。
OURSは最先端の手法と比較して競争性能が高いことを示す。
- 参考スコア(独自算出の注目度): 36.82081211127408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating vision-language models (VLMs) into end-to-end (E2E) autonomous driving (AD) systems has shown promise in improving scene understanding. However, existing integration strategies suffer from several limitations: they either struggle to resolve distribution misalignment between reasoning and action spaces, underexploit the general reasoning capabilities of pretrained VLMs, or incur substantial inference latency during action policy generation, which degrades driving performance. To address these challenges, we propose \OURS in this work, an end-to-end AD framework that unifies reasoning and action generation within a single vision-language-action (VLA) model. Our approach leverages a mixture-of-transformer (MoT) architecture with joint attention sharing, which preserves the general reasoning capabilities of pre-trained VLMs while enabling efficient fast-slow inference through asynchronous execution at different task frequencies. Extensive experiments on multiple benchmarks, under both open- and closed-loop settings, demonstrate that \OURS achieves competitive performance compared to state-of-the-art methods. We further investigate the functional boundary of pre-trained VLMs in AD, examining when AD-tailored fine-tuning is necessary. Our results show that pre-trained VLMs can achieve competitive multi-task scene understanding performance through semantic prompting alone, while fine-tuning remains essential for action-level tasks such as decision-making and trajectory planning. We refer to \href{https://automot-website.github.io/}{Project Page} for the demonstration videos and qualitative results.
- Abstract(参考訳): 視覚言語モデル(VLM)をエンド・ツー・エンド(E2E)自動運転(AD)システムに統合することで、シーン理解の改善が期待できる。
しかし、既存の統合戦略にはいくつかの制限がある: 推論とアクション空間の間の分布の不整合を解決するのに苦労する、事前訓練されたVLMの一般的な推論能力を過小評価する、あるいは、動作ポリシー生成時にかなりの推論遅延を発生させる、などである。
これらの課題に対処するため、我々は、単一の視覚言語アクションモデル(VLA)モデルにおいて、推論とアクション生成を統一するエンドツーエンドADフレームワークである‘OURS’を提案する。
提案手法では,異なるタスク周波数での非同期実行による高速スロー推論を実現するとともに,事前学習したVLMの一般的な推論能力を保ちながら,変換器の混合(MoT)アーキテクチャと共同注意共有を利用する。
オープンループ設定とクローズループ設定の両方で、複数のベンチマークに対する大規模な実験により、‘OURS’は最先端の手法と比較して競争性能が向上することを示した。
さらに,AD-tailored fine-tuningの必要性について検討し,ADにおける事前訓練VLMの機能的境界について検討した。
この結果から,事前学習したVLMは意味的プロンプトを単独で行うことで,競争力のあるマルチタスクシーン理解性能を実現することができる一方で,細調整は意思決定や軌道計画といったアクションレベルのタスクには不可欠であることが示唆された。
デモビデオと質的な結果について、 \href{https://automot-website.github.io/}{Project Page} を参照する。
関連論文リスト
- SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving [10.980525810871827]
本稿では,シーン適応型視覚ランゲージ・アクション・フレームワークであるSAMoE-VLAを提案する。
私たちのキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き出すことです。
本研究では,世界認知,知覚,言語,行動の時間的一貫した推論を支援するために,条件付きクロスモーダル因果注意機構を導入する。
論文 参考訳(メタデータ) (2026-03-09T08:54:03Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving [51.47621083057114]
SOLVEは、ビジョンランゲージモデルとエンド・ツー・エンド(E2E)モデルを相乗化して自動運転車の計画を強化する革新的なフレームワークである。
提案手法は,VLMとE2Eコンポーネント間の包括的インタラクションを実現するために,共有ビジュアルエンコーダによる機能レベルでの知識共有を重視している。
論文 参考訳(メタデータ) (2025-05-22T15:44:30Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [17.36342349850825]
教師としての視覚言語モデル(VLM)は、追加の監督を提供することで訓練を強化する。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。