論文の概要: Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies
- arxiv url: http://arxiv.org/abs/2601.21251v1
- Date: Thu, 29 Jan 2026 04:17:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.996974
- Title: Abstracting Robot Manipulation Skills via Mixture-of-Experts Diffusion Policies
- Title(参考訳): ミキサード・オブ・エグゼクティブ・ディフュージョン法によるロボットマニピュレーションスキルの抽象化
- Authors: Ce Hao, Xuanran Zhai, Yaohua Liu, Harold Soh,
- Abstract要約: 拡散ベースのポリシーは最近、ロボット操作の強い結果を示しているが、マルチタスクシナリオへの拡張は、モデルサイズとデモのスケーリングコストの上昇によって妨げられている。
本稿では,SMP(Skill Mixture-of-Experts Policy)について紹介する。SMP(Skill Mixture-of-Experts Policy)は,SMP(Skill Mixture-of-Experts Policy)とSMP(Skill Mixture-of-Experts Policy)の2つについて述べる。
シミュレーションおよびマルチタスク学習および移動学習タスクを備えた実デュアルアームプラットフォーム上でSMPを検証し、SMPは大きな拡散ベースラインよりも高い成功率と推論コストを著しく低減する。
- 参考スコア(独自算出の注目度): 13.826293542795938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based policies have recently shown strong results in robot manipulation, but their extension to multi-task scenarios is hindered by the high cost of scaling model size and demonstrations. We introduce Skill Mixture-of-Experts Policy (SMP), a diffusion-based mixture-of-experts policy that learns a compact orthogonal skill basis and uses sticky routing to compose actions from a small, task-relevant subset of experts at each step. A variational training objective supports this design, and adaptive expert activation at inference yields fast sampling without oversized backbones. We validate SMP in simulation and on a real dual-arm platform with multi-task learning and transfer learning tasks, where SMP achieves higher success rates and markedly lower inference cost than large diffusion baselines. These results indicate a practical path toward scalable, transferable multi-task manipulation: learn reusable skills once, activate only what is needed, and adapt quickly when tasks change.
- Abstract(参考訳): 拡散ベースのポリシーは最近、ロボット操作の強い成果を示しているが、マルチタスクシナリオへの拡張は、モデルサイズとデモのスケーリングコストの上昇によって妨げられている。
SMP(Skill Mixture-of-Experts Policy)は,コンパクトな直交スキルベースを学習する拡散型ミックス・オブ・エキスパートポリシーであり,各ステップにおいて,タスク関連の専門家の小さなサブセットからアクションを構成するために,ステッキールーティングを利用する。
変分訓練の目的がこの設計をサポートし、推論における適応的専門家の活性化は、大きめのバックボーンを使わずに高速なサンプリングをもたらす。
シミュレーションおよびマルチタスク学習および移動学習タスクを備えた実デュアルアームプラットフォーム上でSMPを検証し、SMPは大きな拡散ベースラインよりも高い成功率と推論コストを著しく低減する。
これらの結果は,再利用可能なスキルを一度習得し,必要なものだけを活性化し,タスク変更時に迅速に適応する,スケーラブルで移動可能なマルチタスク操作への実践的な道を示す。
関連論文リスト
- Is Diversity All You Need for Scalable Robotic Manipulation? [50.747150672933316]
ロボット学習におけるデータ多様性の役割について,従来の「より多様な方がよい」という直観に固執する3つの重要な次元(タスク),実施形態(ロボットの使用方法),専門家(専門家)を用いて検討する。
タスクの多様性は、タスクごとのデモンストレーション量よりも重要であり、多様な事前学習タスクから新しい下流シナリオへの移行に有効であることを示す。
本稿では,速度のあいまいさを緩和する分散デバイアス法を提案する。GO-1-Proは,2.5倍の事前学習データを用いて,15%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-07-08T17:52:44Z) - Bigger, Regularized, Categorical: High-Capacity Value Functions are Efficient Multi-Task Learners [60.75160178669076]
オンライン強化学習におけるタスク干渉の問題に対して,クロスエントロピーを用いて訓練し,学習可能なタスク埋め込みを条件とした高容量値モデルの使用が課題であることを示す。
280以上のユニークなタスクを持つ7つのマルチタスクベンチマークで、高い自由度ヒューマノイド制御と離散視覚ベースのRLにまたがるアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-29T06:41:45Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent
Pathfinding [16.36594480478895]
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
Heuristics-Informed Multi-Agent Pathfinding (HiMAP)
論文 参考訳(メタデータ) (2024-02-23T13:01:13Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale
Multitask Learning Systems [4.675744559395732]
マルチタスク学習は、複数のタスクから学習できるモデルが知識伝達によってより良い品質と効率を達成すると仮定する。
最先端のMLモデルは、タスクごとに高いカスタマイズに依存し、タスクの数をスケールするのではなく、サイズとデータスケールを活用する。
本稿では,大規模マルチタスクモデルを生成でき,新しいタスクの動的かつ連続的な追加を支援する進化的手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T13:10:47Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。