論文の概要: LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning
- arxiv url: http://arxiv.org/abs/2603.08476v1
- Date: Mon, 09 Mar 2026 15:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.106845
- Title: LAR-MoE: Latent-Aligned Routing for Mixture of Experts in Robotic Imitation Learning
- Title(参考訳): LAR-MoE:ロボット模倣学習におけるエキスパートの混在のための潜時適応ルーティング
- Authors: Ariel Rodriguez, Chenpan Li, Lorenzo Mazza, Rayan Younis, Ortrun Hellig, Sebastian Bodenstedt, Martin Wagner, Stefanie Speidel,
- Abstract要約: 政策学習から教師なしスキル発見を分離する2段階のフレームワークであるLAR-MoE(Latent-Aligned Routing for Mixture of Experts)を紹介する。
プレトレーニングでは,学生と教師の協調学習を通じて,観察と今後の行動の協調的潜在表現を学習する。
訓練後の段階では、専門家のルーティングは学習された潜在空間の構造に従うように規則化され、専門家の崩壊を防ぐ。
- 参考スコア(独自算出の注目度): 1.7272266547709354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning enables robots to acquire manipulation skills from demonstrations, yet deploying a policy across tasks with heterogeneous dynamics remains challenging, as models tend to average over distinct behavioral modes present in the demonstrations. Mixture-of-Experts (MoE) architectures address this by activating specialized subnetworks, but requires meaningful skill decompositions for expert routing. We introduce Latent-Aligned Routing for Mixture of Experts (LAR-MoE), a two-stage framework that decouples unsupervised skill discovery from policy learning. In pre-training, we learn a joint latent representation between observations and future actions through student-teacher co-training. In a post-training stage, the expert routing is regularized to follow the structure of the learned latent space, preventing expert collapse while maintaining parameter efficiency. We evaluate LAR-MoE in simulation and on hardware. On the LIBERO benchmark, our method achieves a 95.2% average success rate with 150M parameters. On a surgical bowel grasping and retraction task, LAR-MoE matches a supervised MoE baseline without requiring any phase annotations, and transfers zero-shot to ex vivo porcine tissue. Our findings suggest that latent-aligned routing provides a principled alternative to supervised skill decomposition, enabling structured expert specialization from unlabeled demonstrations.
- Abstract(参考訳): 模倣学習は、ロボットがデモンストレーションから操作スキルを習得することを可能にするが、モデルがデモに存在する異なる行動モードよりも平均的であるため、不均一なダイナミクスを持つタスクをまたいだポリシーの展開は困難である。
Mixture-of-Experts (MoE)アーキテクチャは、専門のサブネットワークを活性化することでこの問題に対処するが、専門家のルーティングには有意義なスキル分解が必要である。
LAR-MoE(Latent-Aligned Routing for Mixture of Experts)は、政策学習から教師なしスキル発見を分離する2段階のフレームワークである。
プレトレーニングでは,学生と教師の協調学習を通じて,観察と今後の行動の協調的潜在表現を学習する。
訓練後の段階では、エキスパートルーティングは学習された潜在空間の構造に従うように正規化され、パラメータ効率を維持しながら専門家の崩壊を防止する。
LAR-MoEをシミュレーションおよびハードウェア上で評価する。
LIBEROベンチマークでは, 平均成功率は95.2%, パラメータは1億5000万である。
LAR-MoEは、外科的腸掴みとリトラクションタスクにおいて、位相アノテーションを必要とせずに監督されたMoEベースラインと一致し、ゼロショットを外生ブタ組織に転送する。
この結果から,潜時整列ルーティングは教師付きスキル分解の原則的な代替手段であり,ラベルなしのデモンストレーションから構造化された専門家の専門化を可能にすることが示唆された。
関連論文リスト
- SAME: Stabilized Mixture-of-Experts for Multimodal Continual Instruction Tuning [83.66308307152808]
マルチモーダル・インストラクション・チューニング(MCIT)のためのStAbilized Mixture-of-Experts(SAME)を提案する。
プロプライエタリは、サブスペースへのルーティングダイナミクスを分解し、タスク関連方向のみを更新することで、専門家の選択を安定化する。
また、トレーニング中に選択した専門家を凍結するためにアダプティブな専門家アクティベーションを導入し、冗長でクロスタスクな干渉を減らす。
論文 参考訳(メタデータ) (2026-02-02T11:47:06Z) - Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance [79.21541758879012]
Mixture-of-Experts (MoE) は計算効率を保ちながらモデルキャパシティをスケールするための強力なパラダイムとして登場した。
本稿では、専門家の専門化を促進する明示的なルーティングガイダンスを備えた2ステップルータを備えたMoEフレームワークであるProMoEを紹介する。
論文 参考訳(メタデータ) (2025-10-28T17:59:02Z) - Guided by the Experts: Provable Feature Learning Dynamic of Soft-Routed Mixture-of-Experts [11.437368205968573]
本稿では,非線形ルータと専門家によるソフトローイング型MoEモデルの連成訓練のための収束保証を提供することにより,MoE理論を推し進める。
訓練後プルーニングは、効果的に冗長ニューロンを除去し、続いて、大域的最適性に到達した、確実に収束した微調整プロセスを示す。
論文 参考訳(メタデータ) (2025-10-08T16:40:31Z) - Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - MoTE: Mixture of Task-specific Experts for Pre-Trained ModelBased Class-incremental Learning [39.892628170627496]
クラスインクリメンタルラーニング(CIL)では、ストリーミングデータから新たな知識を継続的に取得するために、ディープラーニングモデルが必要である。
プロンプトベースのアプローチはプロンプトオーバーライトに悩まされ、アダプタベースの手法はタスク間の次元的ミスアライメントのような課題に直面している。
本稿では,不整合出力次元による誤判定を効果的に軽減するタスク特化専門家(MoTE)フレームワークの混合を提案する。
論文 参考訳(メタデータ) (2025-05-21T03:06:10Z) - MoE-Loco: Mixture of Experts for Multitask Locomotion [52.04025933292957]
脚付きロボットのマルチタスク移動のためのフレームワークであるMoE-Locoを提案する。
本手法は,四足歩行と二足歩行をサポートしながら,多様な地形を扱える1つの政策を実現する。
論文 参考訳(メタデータ) (2025-03-11T15:53:54Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - Continuous Mean-Zero Disagreement-Regularized Imitation Learning
(CMZ-DRIL) [1.0057319866872687]
本稿では,CMZ-DRIL(Continuous Mean-Zero Disagreement-Regularized Imitation Learning)という手法を提案する。
CMZ-DRILは強化学習を用いて、専門家のデモンストレーションをモデル化するために訓練されたエージェントの集合の中で不確実性を最小化する。
ウェイポイントナビゲーション環境と2つのMuJoCo環境で実証されたように、CMZ-DRILは専門家と同じような振る舞いをするパフォーマンスエージェントを生成することができる。
論文 参考訳(メタデータ) (2024-03-02T01:40:37Z) - Conditional Neural Expert Processes for Learning Movement Primitives from Demonstration [1.9336815376402723]
条件付きニューラルネットワークプロセス(CNEP)は、異なるモードから異なる専門家ネットワークにデモを割り当てることを学ぶ。
CNEPは、軌道がどのモードに属するかの監督を必要としない。
本システムは,オンラインコンディショニング機構を用いて,環境変化へのオンザフライ適応が可能なシステムである。
論文 参考訳(メタデータ) (2024-02-13T12:52:02Z) - Imitation from Observation With Bootstrapped Contrastive Learning [12.048166025000976]
IfO(IfO)は、マルコフ決定プロセスにおいて自律エージェントを訓練する学習パラダイムである。
本稿では,OfOアルゴリズムであるBootIfOLについて紹介する。
我々は,限られた数の実証軌道を用いて効果的な政策を訓練できることを示す,様々な制御タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2023-02-13T17:32:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。