論文の概要: SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2603.08113v1
- Date: Mon, 09 Mar 2026 08:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.715655
- Title: SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving
- Title(参考訳): SAMoE-VLA: 自動運転のためのシーン適応型混合実験型ビジョンランゲージ・アクションモデル
- Authors: Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang,
- Abstract要約: 本稿では,シーン適応型視覚ランゲージ・アクション・フレームワークであるSAMoE-VLAを提案する。
私たちのキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き出すことです。
本研究では,世界認知,知覚,言語,行動の時間的一貫した推論を支援するために,条件付きクロスモーダル因果注意機構を導入する。
- 参考スコア(独自算出の注目度): 10.980525810871827
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Vision-Language-Action (VLA) models have shown promising capabilities in autonomous driving by leveraging the understanding and reasoning strengths of Large Language Models(LLMs).However, our empirical analysis reveals that directly applying existing token-level MoE mechanisms--which are inherited from LLM architectures--to VLA models results in unstable performance and safety degradation in autonomous driving, highlighting a misalignment between token-based expert specialization and scene-level decision-making.To address this, we propose SAMoE-VLA, a scene-adaptive Vision-Language-Action framework that conditions expert selection on structured scene representations instead of token embeddings. Our key idea is to derive the MoE routing signal from bird's-eye-view (BEV) features that encapsulates traffic scene context, enabling scenario-dependent expert weighting and merging tailored to distinct driving conditions. Furthermore, to support temporally consistent reasoning across world-knowledge, perception, language, and action, we introduce a Conditional Cross-Modal Causal Attention mechanism that integrates world state, linguistic intent, and action history into a unified causal reasoning process. Extensive experiments on the nuScenes open loop planning dataset and LangAuto closed-loop benchmark demonstrate that SAMoE-VLA achieves state-of-the-art performance, outperforming prior VLA-based and world-model-based approaches with fewer parameters.Our code will be released soon.
- Abstract(参考訳): 近年のVLA(Vision-Language-Action)モデルの進歩は,Large Language Models(LLMs)の理解と推論の強みを活用することで,自動運転における有望な能力を示している。
しかしながら,我々は,既存のトークンレベルのMoE機構を直接適用することで,VLAモデルが自律運転における不安定な性能と安全性の低下を招き,トークンベースの専門家の専門化とシーンレベルの意思決定の相違を浮き彫りにし,これに対応するために,トークン埋め込みの代わりに構造化シーン表現に専門家の選択を条件付けるシーン適応型ビジョン・ランゲージ・アクションフレームワークであるSAMoE-VLAを提案する。
我々のキーとなるアイデアは、交通シーンのコンテキストをカプセル化した鳥眼視(BEV)機能からMoEルーティング信号を導き、シナリオに依存した専門家の重み付けと、異なる運転条件に合わせたマージを可能にすることである。
さらに、世界知恵、認識、言語、行動の時間的一貫した推論を支援するために、世界状態、言語意図、行動履歴を統一因果推論プロセスに統合する条件的クロスモーダル因果注意機構を導入する。
nuScenesのオープンループ計画データセットとLangAutoのクローズドループベンチマークに関する大規模な実験は、SAMoE-VLAが最先端のパフォーマンスを達成し、より少ないパラメータでVLAベースおよびワールドモデルベースのアプローチを上回っていることを実証している。
関連論文リスト
- Reasoning-VLA: A Fast and General Vision-Language-Action Reasoning Model for Autonomous Driving [46.99350914451702]
Reasoning-VLAは、最先端性能、優れた一般化能力、そしてこれまでに報告された優れた推論速度を実現する。
8つの公開可能な自律運転データセットを、標準化された言語推論ベースの、モデルトレーニングのための使いやすいデータフォーマットに統合します。
論文 参考訳(メタデータ) (2025-11-25T04:40:11Z) - VLMs Guided Interpretable Decision Making for Autonomous Driving [39.29020915361483]
我々は、高度な意思決定タスクにおいて、最先端のオープンソースビジョン言語モデル(VLM)を評価する。
本稿では,VLMの役割を直接決定ジェネレータからセマンティックエンハンサーへシフトさせるアプローチを提案する。
提案手法は,VLMを信頼性・解釈可能なADシステムに統合する上で有望な方向を提供することにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T19:57:51Z) - Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。
Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。
提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文 参考訳(メタデータ) (2025-10-13T05:51:22Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [37.176428069948535]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。
現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。
本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文 参考訳(メタデータ) (2025-06-16T17:58:50Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models [50.587868616659826]
視覚表現におけるニューロンレベルでの単意味性を評価するための包括的枠組みを提案する。
実験の結果,視覚言語モデルで訓練したSAEは個々のニューロンの単意味性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-04-03T17:58:35Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。