論文の概要: MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers
- arxiv url: http://arxiv.org/abs/2603.15265v1
- Date: Mon, 16 Mar 2026 13:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.868893
- Title: MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers
- Title(参考訳): MoE-ACT:Sparse Language-Conditioned Mixture-of-Experts Transformerによるマルチタスクバイマニピュレーションのスケーリング
- Authors: Kangjun Guo, Haichao Liu, Yanji Sun, Ruhan Zhao, Jinni Zhou, Jun Ma,
- Abstract要約: 双方向操作のための軽量なマルチタスク模倣学習フレームワークを提案する。
MoE-ACTは、Sparse Mixture-of-Experts (MoE)モジュールをACTのTransformerエンコーダに統合する。
MoE-ACTはマルチタスク性能を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 3.890941830250993
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability of robots to handle multiple tasks under a unified policy is critical for deploying embodied intelligence in real-world household and industrial applications. However, out-of-distribution variation across tasks often causes severe task interference and negative transfer when training general robotic policies. To address this challenge, we propose a lightweight multi-task imitation learning framework for bimanual manipulation, termed Mixture-of-Experts-Enhanced Action Chunking Transformer (MoE-ACT), which integrates sparse Mixture-of-Experts (MoE) modules into the Transformer encoder of ACT. The MoE layer decomposes a unified task policy into independently invoked expert components. Through adaptive activation, it naturally decouples multi-task action distributions in latent space. During decoding, Feature-wise Linear Modulation (FiLM) dynamically modulates action tokens to improve consistency between action generation and task instructions. In parallel, multi-scale cross-attention enables the policy to simultaneously focus on both low-level and high-level semantic features, providing rich visual information for robotic manipulation. We further incorporate textual information, transitioning the framework from a purely vision-based model to a vision-centric, language-conditioned action generation system. Experimental validation in both simulation and a real-world dual-arm setup shows that MoE-ACT substantially improves multi-task performance. Specifically, MoE-ACT outperforms vanilla ACT by an average of 33% in success rate. These results indicate that MoE-ACT provides stronger robustness and generalization in complex multi-task bimanual manipulation environments. Our open-source project page can be found at https://j3k7.github.io/MoE-ACT/.
- Abstract(参考訳): ロボットが複数のタスクを統一されたポリシーの下で処理できることは、実世界の家庭や産業のアプリケーションに具体化されたインテリジェンスを展開する上で重要である。
しかしながら、タスク間のアウト・オブ・ディストリビューションのばらつきは、一般的なロボットポリシーを訓練する際、深刻なタスクの干渉と負の移動を引き起こすことが多い。
この課題に対処するため、我々は、Mixture-of-Experts-Enhanced Action Chunking Transformer (MoE-ACT) と呼ばれる、双方向操作のための軽量なマルチタスク模倣学習フレームワークを提案し、これは、Sparse Mixture-of-Experts (MoE) モジュールをACTのTransformerエンコーダに統合する。
MoE層は、個別に呼び出された専門家コンポーネントに統一されたタスクポリシーを分解する。
適応活性化により、ラテント空間におけるマルチタスクの作用分布を自然に分離する。
デコード中、FiLM(Feature-wise Linear Modulation)はアクショントークンを動的に変調し、アクション生成とタスク命令間の一貫性を改善する。
並行して、マルチスケールのクロスアテンションにより、ポリシーは低レベルと高レベルのセマンティック機能の両方に同時に焦点を合わせ、ロボット操作のための豊富な視覚情報を提供することができる。
我々はさらにテキスト情報を導入し、フレームワークを純粋に視覚モデルから視覚中心の言語条件のアクション生成システムに移行する。
MoE-ACTがマルチタスク性能を大幅に向上することを示す。
特に、MoE-ACT はバニラACT を平均33%の成功率で上回る。
これらの結果は,複雑なマルチタスクバイマニュアル操作環境において,MoE-ACTが強い強靭性と一般化をもたらすことを示唆している。
私たちのオープンソースプロジェクトのページはhttps://j3k7.github.io/MoE-ACT/.com/。
関連論文リスト
- ATG-MoE: Autoregressive trajectory generation with mixture-of-experts for assembly skill learning [6.440473674041692]
ATG-MoEは、デモから集合技術を学ぶための専門家の混在したエンドツーエンドの自己回帰軌道生成手法である。
シーンとタスクの理解のためのマルチモーダルな特徴融合、時間的コヒーレントな軌道生成のための自己回帰シーケンスモデリング、そしてマルチスキル学習を統一するためのMix-of-expertsアーキテクチャを統合する。
本研究では,圧力低減弁組立タスクから8つの代表組立スキルに関する提案手法を訓練し,評価する。
論文 参考訳(メタデータ) (2026-03-19T15:28:17Z) - Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - Training One Model to Master Cross-Level Agentic Actions via Reinforcement Learning [42.1534425503333]
CrossAgentは異種作用空間をマスターし、軌道の各ステップで最も効果的なインターフェースを自律的に選択する統合エージェントモデルである。
オープンソースのMinecraft環境における800以上のタスクの実験は、CrossAgentが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-12-10T14:52:29Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Contextual Attention Modulation: Towards Efficient Multi-Task Adaptation in Large Language Models [23.932127056475526]
大規模言語モデル(LLM)は優れた能力を持っているが、マルチタスク適応に苦戦している。
本研究では,LLMにおける自己注意モジュールの表現を動的に変調する新しいメカニズムであるCAM(Contextual Attention Modulation)を提案する。
私たちのアプローチは既存のアプローチよりも大幅に優れており、平均的なパフォーマンス改善は3.65%に達しています。
論文 参考訳(メタデータ) (2025-10-20T16:19:27Z) - Transforming Vision Transformer: Towards Efficient Multi-Task Asynchronous Learning [59.001091197106085]
Vision TransformerのためのMulti-Task Learning (MTL)は、複数のタスクを同時に処理することでモデル能力を向上させることを目的としている。
最近の研究は、Mixture-of-Experts(MoE)構造の設計とローランド適応(LoRA)によるマルチタスク学習の効率化に重点を置いている。
本稿では,事前学習した視覚変換器を効率的なマルチタスク学習器に変換することで,EMTAL(Efficient Multi-Task Learning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T17:41:23Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - CLAS: Coordinating Multi-Robot Manipulation with Central Latent Action
Spaces [9.578169216444813]
本稿では,異なるエージェント間で共有される学習された潜在行動空間を通じて,マルチロボット操作を協調する手法を提案する。
シミュレーションされたマルチロボット操作タスクにおいて本手法を検証し,サンプル効率と学習性能の観点から,従来のベースラインよりも改善したことを示す。
論文 参考訳(メタデータ) (2022-11-28T23:20:47Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。