論文の概要: Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
- arxiv url: http://arxiv.org/abs/2510.14300v1
- Date: Thu, 16 Oct 2025 04:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.724793
- Title: Expertise need not monopolize: Action-Specialized Mixture of Experts for Vision-Language-Action Learning
- Title(参考訳): 専門知識は独占する必要はない:視覚・言語・行動学習の専門家の行動特化混合
- Authors: Weijie Shen, Yitian Liu, Yuhao Wu, Zhixuan Liang, Sijia Gu, Dehui Wang, Tian Nian, Lei Xu, Yusen Qin, Jiangmiao Pang, Xinping Guan, Xiaokang Yang, Yao Mu,
- Abstract要約: AdaMoEはMixture-of-Experts (MoE)アーキテクチャであり、密度の高いVLAモデルから事前訓練された重量を継承する。
実世界の実験で21.5%の大幅な改善が、ロボット操作タスクの実用的効果を実証している。
- 参考スコア(独自算出の注目度): 56.129822832095726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models are experiencing rapid development and demonstrating promising capabilities in robotic manipulation tasks. However, scaling up VLA models presents several critical challenges: (1) Training new VLA models from scratch demands substantial computational resources and extensive datasets. Given the current scarcity of robot data, it becomes particularly valuable to fully leverage well-pretrained VLA model weights during the scaling process. (2) Real-time control requires carefully balancing model capacity with computational efficiency. To address these challenges, We propose AdaMoE, a Mixture-of-Experts (MoE) architecture that inherits pretrained weights from dense VLA models, and scales up the action expert by substituting the feedforward layers into sparsely activated MoE layers. AdaMoE employs a decoupling technique that decouples expert selection from expert weighting through an independent scale adapter working alongside the traditional router. This enables experts to be selected based on task relevance while contributing with independently controlled weights, allowing collaborative expert utilization rather than winner-takes-all dynamics. Our approach demonstrates that expertise need not monopolize. Instead, through collaborative expert utilization, we can achieve superior performance while maintaining computational efficiency. AdaMoE consistently outperforms the baseline model across key benchmarks, delivering performance gains of 1.8% on LIBERO and 9.3% on RoboTwin. Most importantly, a substantial 21.5% improvement in real-world experiments validates its practical effectiveness for robotic manipulation tasks.
- Abstract(参考訳): Vision-Language-Action(VLA)モデルは、ロボット操作タスクにおいて、急速に開発され、有望な能力を誇示している。
しかしながら、VLAモデルのスケールアップには、(1)スクラッチから新しいVLAモデルをトレーニングするには、かなりの計算リソースと広範なデータセットが必要である。
現在のロボットデータの不足を考えると、スケーリングプロセスにおいて、十分に予測されたVLAモデルの重みを十分に活用することは特に価値がある。
2) リアルタイム制御には, モデルキャパシティと計算効率のバランスをとる必要がある。
これらの課題に対処するために、高密度VLAモデルから事前学習した重量を継承するMixture-of-Experts (MoE)アーキテクチャであるAdaMoEを提案し、フィードフォワード層をわずかに活性化されたMoE層に置換することでアクションエキスパートをスケールアップする。
AdaMoEは、専門家の選択を、従来のルータと並行して動作する独立したスケールアダプタを通じて、専門家の重み付けから切り離すデカップリング技術を採用している。
これにより、専門家はタスクの関連性に基づいて選択できると同時に、独立に制御された重みに貢献することができる。
私たちのアプローチは、専門知識を独占する必要はありません。
代わりに、協調的な専門家の活用により、計算効率を維持しながら優れた性能を達成することができる。
AdaMoEはキーベンチマークのベースラインモデルよりも一貫して優れており、LIBEROでは1.8%、RoboTwinでは9.3%のパフォーマンス向上を実現している。
最も重要なことは、実世界の実験における21.5%の大幅な改善は、ロボット操作タスクの実用性を検証することである。
関連論文リスト
- MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。
それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。
5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文 参考訳(メタデータ) (2025-08-13T13:00:05Z) - FedVLA: Federated Vision-Language-Action Learning with Dual Gating Mixture-of-Experts for Robotic Manipulation [11.080979029271019]
視覚言語アクション(VLA)モデルは、ロボットがタスク実行のために言語命令を解釈できるようにすることにより、ロボット操作を大幅に進歩させた。
我々は、フェデレートVLA学習フレームワークであるFedVLAを提案し、パフォーマンスを損なうことなく、データのプライバシを保存する分散モデルトレーニングを可能にした。
論文 参考訳(メタデータ) (2025-08-04T08:39:43Z) - MoSE: Skill-by-Skill Mixture-of-Experts Learning for Embodied Autonomous Machines [14.042949333988785]
本稿では,AIの推論と学習効率を大幅に向上させる新しいMixture-of-Expert(MoE)手法を提案する。
一般的なMoEモデルは、広範囲なトレーニングデータと複雑な最適化を必要とする。
我々は,人間の学習と推論プロセスのスキル・バイ・スキル・バイ・ステップを模倣した,MoSEと呼ばれるスキル指向のMoEを提案する。
論文 参考訳(メタデータ) (2025-07-10T14:48:08Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。
VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-28T02:53:48Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。