論文の概要: DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.16278v1
- Date: Thu, 22 May 2025 06:23:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.082177
- Title: DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving
- Title(参考訳): DriveMoE: エンド・ツー・エンド自動運転におけるビジョン・ランゲージ・アクション・モデルのためのMixture-of-Experts
- Authors: Zhenjie Yang, Yilin Chai, Xiaosong Jia, Qifeng Li, Yuqian Shao, Xuekai Zhu, Haisheng Su, Junchi Yan,
- Abstract要約: 我々は、Scene-Specialized Vision MoEとSkill-Specialized Action MoEを備えた、新しいMoEベースのE2E-ADフレームワークであるDriveMoEを提案する。
DriveMoEは、既存のモデルのように平均的なモードに悩まされることなく、多様なシナリオを処理できる。
Bench2Driveのクローズドループ評価実験では、DriveMoEは最先端(SOTA)のパフォーマンスを達成し、自律運転タスクにおけるビジョンとアクションMoEの組み合わせの有効性を実証している。
- 参考スコア(独自算出の注目度): 42.87581214382647
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end autonomous driving (E2E-AD) demands effective processing of multi-view sensory data and robust handling of diverse and complex driving scenarios, particularly rare maneuvers such as aggressive turns. Recent success of Mixture-of-Experts (MoE) architecture in Large Language Models (LLMs) demonstrates that specialization of parameters enables strong scalability. In this work, we propose DriveMoE, a novel MoE-based E2E-AD framework, with a Scene-Specialized Vision MoE and a Skill-Specialized Action MoE. DriveMoE is built upon our $\pi_0$ Vision-Language-Action (VLA) baseline (originally from the embodied AI field), called Drive-$\pi_0$. Specifically, we add Vision MoE to Drive-$\pi_0$ by training a router to select relevant cameras according to the driving context dynamically. This design mirrors human driving cognition, where drivers selectively attend to crucial visual cues rather than exhaustively processing all visual information. In addition, we add Action MoE by training another router to activate specialized expert modules for different driving behaviors. Through explicit behavioral specialization, DriveMoE is able to handle diverse scenarios without suffering from modes averaging like existing models. In Bench2Drive closed-loop evaluation experiments, DriveMoE achieves state-of-the-art (SOTA) performance, demonstrating the effectiveness of combining vision and action MoE in autonomous driving tasks. We will release our code and models of DriveMoE and Drive-$\pi_0$.
- Abstract(参考訳): エンドツーエンドの自律運転(E2E-AD)は、多視点センサーデータの効率的な処理と多様な複雑な運転シナリオの堅牢なハンドリング、特にアグレッシブ・ターンのような稀な操作を必要とする。
LLM(Large Language Models)におけるMixture-of-Experts (MoE)アーキテクチャの最近の成功は、パラメータの特殊化が強力なスケーラビリティを実現することを示している。
本研究では,新しいMoEベースのE2E-ADフレームワークであるDriveMoEを提案し,Scene-Specialized Vision MoEとSkill-Specialized Action MoEを提案する。
DriveMoEは、当社のVLA(Vision-Language-Action)ベースライン上に構築されています。
具体的には、ドライブ-$\pi_0$にVision MoEを追加して、運転状況に応じて適切なカメラを選択するルータをトレーニングする。
このデザインは人間の運転認知を反映し、ドライバーはすべての視覚情報を徹底的に処理するのではなく、重要な視覚的手がかりに選択的に出席する。
さらに、別のルータをトレーニングして、異なる運転行動のための特別な専門家モジュールを活性化することで、Action MoEを追加します。
DriveMoEは、明示的な振る舞いの専門化を通じて、既存のモデルのように平均的なモードに悩まされることなく、多様なシナリオを処理できる。
Bench2Driveのクローズドループ評価実験では、DriveMoEは最先端(SOTA)のパフォーマンスを達成し、自律運転タスクにおけるビジョンとアクションMoEの組み合わせの有効性を実証している。
DriveMoEとDrive-$\pi_0$のコードとモデルをリリースします。
関連論文リスト
- MoSE: Skill-by-Skill Mixture-of-Expert Learning for Autonomous Driving [14.042949333988785]
我々は,人間のドライバーの学習過程,スキル・バイ・スキル,ステップ・バイ・ステップを模倣した,MoSEと呼ばれるスキル指向のMoEを提案する。
階層的なスキルデータセットを構築し、ルータを事前訓練して、モデルをステップバイステップで考えることを奨励します。
CODAADコーナーケース推論タスクでは,3B未満の活性パラメータで,複数の8B+パラメータより優れていた。
論文 参考訳(メタデータ) (2025-07-10T14:48:08Z) - The Role of World Models in Shaping Autonomous Driving: A Comprehensive Survey [50.62538723793247]
ドライビング・ワールド・モデル(DWM)は、ドライビング・プロセス中のシーンの進化を予測することに焦点を当てている。
DWM法は、自律運転システムが動的運転環境をよりよく知覚し、理解し、相互作用することを可能にする。
論文 参考訳(メタデータ) (2025-02-14T18:43:15Z) - VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。
VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文 参考訳(メタデータ) (2024-12-19T01:53:36Z) - DriveMM: All-in-One Large Multimodal Model for Autonomous Driving [63.882827922267666]
DriveMMは、画像やマルチビュービデオなどの多様なデータ入力を処理するために設計された、大規模なマルチモーダルモデルである。
我々は、6つの公開ベンチマークで評価を行い、未確認のデータセットでゼロショット転送を行い、DriveMMはすべてのタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-10T17:27:32Z) - EMMA: End-to-End Multimodal Model for Autonomous Driving [56.972452552944056]
本稿では,自動走行のためのエンドツーエンドマルチモーダルモデルEMMAを紹介する。
EMMAはマルチモーダルな大規模言語モデル基盤に基づいて構築され、生のカメラセンサーデータを様々な駆動特有の出力に直接マッピングする。
論文 参考訳(メタデータ) (2024-10-30T17:46:31Z) - MiniDrive: More Efficient Vision-Language Models with Multi-Level 2D Features as Text Tokens for Autonomous Driving [11.045411890043919]
視覚言語モデル(VLM)は、自律運転における汎用的なエンドツーエンドモデルとして機能する。
既存のほとんどの手法は計算コストのかかるビジュアルエンコーダと大言語モデル(LLM)に依存している。
提案するFE-MoE(Feature Engineering Mixture of Experts)モジュールとDI-Adapter(Dynamic Instruction Adapter)を組み込んだMiniDriveという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-11T13:43:01Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。