論文の概要: DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.16278v1
- Date: Thu, 22 May 2025 06:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.082177
- Title: DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
- Title(参考訳): DriveMoE: エンド・ツー・エンド自動運転におけるビジョン・ランゲージ・アクション・モデルのためのMixture-of-Experts
- Authors: Zhenjie Yang, Yilin Chai, Xiaosong Jia, Qifeng Li, Yuqian Shao, Xuekai Zhu, Haisheng Su, Junchi Yan,
- Abstract要約: 我々は、Scene-Specialized Vision MoEとSkill-Specialized Action MoEを備えた、新しいMoEベースのE2E-ADフレームワークであるDriveMoEを提案する。
DriveMoEは、既存のモデルのように平均的なモードに悩まされることなく、多様なシナリオを処理できる。
Bench2Driveのクローズドループ評価実験では、DriveMoEは最先端(SOTA)のパフォーマンスを達成し、自律運転タスクにおけるビジョンとアクションMoEの組み合わせの有効性を実証している。
- 参考スコア(独自算出の注目度): 42.87581214382647
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end autonomous driving (E2E-AD) demands effective processing of multi-view sensory data and robust handling of diverse and complex driving scenarios, particularly rare maneuvers such as aggressive turns. Recent success of Mixture-of-Experts (MoE) architecture in Large Language Models (LLMs) demonstrates that specialization of parameters enables strong scalability. In this work, we propose DriveMoE, a novel MoE-based E2E-AD framework, with a Scene-Specialized Vision MoE and a Skill-Specialized Action MoE. DriveMoE is built upon our $\pi_0$ Vision-Language-Action (VLA) baseline (originally from the embodied AI field), called Drive-$\pi_0$. Specifically, we add Vision MoE to Drive-$\pi_0$ by training a router to select relevant cameras according to the driving context dynamically. This design mirrors human driving cognition, where drivers selectively attend to crucial visual cues rather than exhaustively processing all visual information. In addition, we add Action MoE by training another router to activate specialized expert modules for different driving behaviors. Through explicit behavioral specialization, DriveMoE is able to handle diverse scenarios without suffering from modes averaging like existing models. In Bench2Drive closed-loop evaluation experiments, DriveMoE achieves state-of-the-art (SOTA) performance, demonstrating the effectiveness of combining vision and action MoE in autonomous driving tasks. We will release our code and models of DriveMoE and Drive-$\pi_0$.
- Abstract(参考訳): エンドツーエンドの自律運転(E2E-AD)は、多視点センサーデータの効率的な処理と多様な複雑な運転シナリオの堅牢なハンドリング、特にアグレッシブ・ターンのような稀な操作を必要とする。
LLM(Large Language Models)におけるMixture-of-Experts (MoE)アーキテクチャの最近の成功は、パラメータの特殊化が強力なスケーラビリティを実現することを示している。
本研究では,新しいMoEベースのE2E-ADフレームワークであるDriveMoEを提案し,Scene-Specialized Vision MoEとSkill-Specialized Action MoEを提案する。
DriveMoEは、当社のVLA(Vision-Language-Action)ベースライン上に構築されています。
具体的には、ドライブ-$\pi_0$にVision MoEを追加して、運転状況に応じて適切なカメラを選択するルータをトレーニングする。
このデザインは人間の運転認知を反映し、ドライバーはすべての視覚情報を徹底的に処理するのではなく、重要な視覚的手がかりに選択的に出席する。
さらに、別のルータをトレーニングして、異なる運転行動のための特別な専門家モジュールを活性化することで、Action MoEを追加します。
DriveMoEは、明示的な振る舞いの専門化を通じて、既存のモデルのように平均的なモードに悩まされることなく、多様なシナリオを処理できる。
Bench2Driveのクローズドループ評価実験では、DriveMoEは最先端(SOTA)のパフォーマンスを達成し、自律運転タスクにおけるビジョンとアクションMoEの組み合わせの有効性を実証している。
DriveMoEとDrive-$\pi_0$のコードとモデルをリリースします。
関連論文リスト
- DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [11.045411890043919]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。