論文の概要: MoSE: Skill-by-Skill Mixture-of-Expert Learning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2507.07818v1
- Date: Thu, 10 Jul 2025 14:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.449874
- Title: MoSE: Skill-by-Skill Mixture-of-Expert Learning for Autonomous Driving
- Title(参考訳): MoSE: 自動運転のためのスキル・バイ・スキル・ミックス・オブ・エキスパート・ラーニング
- Authors: Lu Xu, Jiaqian Yu, Xiongfeng Peng, Yiwei Chen, Weiming Li, Jaewook Yoo, Sunghyun Chunag, Dongwook Lee, Daehyun Ji, Chao Zhang,
- Abstract要約: 我々は,人間のドライバーの学習過程,スキル・バイ・スキル,ステップ・バイ・ステップを模倣した,MoSEと呼ばれるスキル指向のMoEを提案する。
階層的なスキルデータセットを構築し、ルータを事前訓練して、モデルをステップバイステップで考えることを奨励します。
CODAADコーナーケース推論タスクでは,3B未満の活性パラメータで,複数の8B+パラメータより優れていた。
- 参考スコア(独自算出の注目度): 14.042949333988785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies show large language models (LLMs) and vision language models (VLMs) trained using web-scale data can empower end-to-end autonomous driving systems for a better generalization and interpretation. Specifically, by dynamically routing inputs to specialized subsets of parameters, the Mixture-of-Experts (MoE) technique enables general LLMs or VLMs to achieve substantial performance improvements while maintaining computational efficiency. However, general MoE models usually demands extensive training data and complex optimization. In this work, inspired by the learning process of human drivers, we propose a skill-oriented MoE, called MoSE, which mimics human drivers' learning process and reasoning process, skill-by-skill and step-by-step. We propose a skill-oriented routing mechanism that begins with defining and annotating specific skills, enabling experts to identify the necessary driving competencies for various scenarios and reasoning tasks, thereby facilitating skill-by-skill learning. Further align the driving process to multi-step planning in human reasoning and end-to-end driving models, we build a hierarchical skill dataset and pretrain the router to encourage the model to think step-by-step. Unlike multi-round dialogs, MoSE integrates valuable auxiliary tasks (e.g.\ description, reasoning, planning) in one single forward process without introducing any extra computational cost. With less than 3B sparsely activated parameters, our model outperforms several 8B+ parameters on CODA AD corner case reasoning task. Compared to existing methods based on open-source models and data, our approach achieves state-of-the-art performance with significantly reduced activated model size (at least by $62.5\%$) with a single-turn conversation.
- Abstract(参考訳): 近年の研究では、Webスケールデータを用いて訓練された大規模言語モデル(LLM)と視覚言語モデル(VLM)が、エンドツーエンドの自動運転システムによりよい一般化と解釈をもたらすことが示されている。
具体的には、パラメータの特別なサブセットに入力を動的にルーティングすることで、Mixture-of-Experts (MoE) 技術により、一般的なLLMやVLMが計算効率を保ちながら、大幅な性能向上を実現することができる。
しかし、一般的なMoEモデルは通常、広範なトレーニングデータと複雑な最適化を必要とする。
本研究は,人間のドライバの学習プロセスに触発されて,人間のドライバの学習プロセスと推論プロセス,スキル・バイ・スキル,ステップ・バイ・ステップを模倣した,MoSEと呼ばれるスキル指向のMoEを提案する。
本稿では,特定のスキルの定義と注釈から始まるスキル指向のルーティング機構を提案し,様々なシナリオや推論タスクに必要な運転能力を特定し,スキルバイスキルの学習を容易にする。
さらに、人間の推論とエンドツーエンドの駆動モデルにおいて、運転プロセスを多段階計画に整合させ、階層的なスキルデータセットを構築し、ルータを事前訓練することで、モデルをステップバイステップで考えることを奨励する。
複数ラウンドのダイアログとは異なり、MoSEは計算コストを余分に必要とせずに、1つのプロセスで重要な補助タスク(例えば、説明、推論、計画)を統合する。
CODAADコーナーケース推論タスクでは,3B未満の活性パラメータで,複数の8B+パラメータより優れていた。
提案手法は,オープンソースモデルとデータに基づく既存の手法と比較して,一ターン会話によるアクティベートモデルサイズ(少なくとも62.5\%$)を大幅に削減し,最先端のパフォーマンスを実現する。
関連論文リスト
- MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。
MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文 参考訳(メタデータ) (2024-08-07T02:28:37Z) - Boosting Continual Learning of Vision-Language Models via Mixture-of-Experts Adapters [65.15700861265432]
本稿では,視覚言語モデルを用いた漸進的学習における長期的忘れを緩和するパラメータ効率の連続学習フレームワークを提案する。
提案手法では,Mixture-of-Experts (MoE)アダプタの統合により,事前学習したCLIPモデルの動的拡張を行う。
視覚言語モデルのゼロショット認識能力を維持するために,分布判別オートセレクタを提案する。
論文 参考訳(メタデータ) (2024-03-18T08:00:23Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Skill-based Model-based Reinforcement Learning [18.758245582997656]
モデルベース強化学習(RL)は、複雑な振る舞いを学習するサンプル効率のよい方法である。
本稿では,スキル領域における計画を可能にするSkill-based Model-based RL framework(SkiMo)を提案する。
学習したスキルダイナミクスモデルを利用して、スキル空間の長い地平線を正確にシミュレートし、計画する。
論文 参考訳(メタデータ) (2022-07-15T16:06:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。