論文の概要: ATG-MoE: Autoregressive trajectory generation with mixture-of-experts for assembly skill learning
- arxiv url: http://arxiv.org/abs/2603.19029v1
- Date: Thu, 19 Mar 2026 15:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-21 18:33:56.994049
- Title: ATG-MoE: Autoregressive trajectory generation with mixture-of-experts for assembly skill learning
- Title(参考訳): ATG-MoE:組み立てスキル学習のためのMix-of-Expertを用いた自己回帰軌道生成
- Authors: Weihang Huang, Chaoran Zhang, Xiaoxin Deng, Hao Zhou, Zhaobo Xu, Shubo Cui, Long Zeng,
- Abstract要約: ATG-MoEは、デモから集合技術を学ぶための専門家の混在したエンドツーエンドの自己回帰軌道生成手法である。
シーンとタスクの理解のためのマルチモーダルな特徴融合、時間的コヒーレントな軌道生成のための自己回帰シーケンスモデリング、そしてマルチスキル学習を統一するためのMix-of-expertsアーキテクチャを統合する。
本研究では,圧力低減弁組立タスクから8つの代表組立スキルに関する提案手法を訓練し,評価する。
- 参考スコア(独自算出の注目度): 6.440473674041692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flexible manufacturing requires robot systems that can adapt to constantly changing tasks, objects, and environments. However, traditional robot programming is labor-intensive and inflexible, while existing learning-based assembly methods often suffer from weak positional generalization, complex multi-stage designs, and limited multi-skill integration capability. To address these issues, this paper proposes ATG-MoE, an end-to-end autoregressive trajectory generation method with mixture of experts for assembly skill learning from demonstration. The proposed method establishes a closed-loop mapping from multi-modal inputs, including RGB-D observations, natural language instructions, and robot proprioception to manipulation trajectories. It integrates multi-modal feature fusion for scene and task understanding, autoregressive sequence modeling for temporally coherent trajectory generation, and a mixture-of-experts architecture for unified multi-skill learning. In contrast to conventional methods that separate visual perception and control or train different skills independently, ATG-MoE directly incorporates visual information into trajectory generation and supports efficient multi-skill integration within a single model. We train and evaluate the proposed method on eight representative assembly skills from a pressure-reducing valve assembly task. Experimental results show that ATG-MoE achieves strong overall performance in simulation, with an average grasp success rate of 96.3% and an average overall success rate of 91.8%, while also demonstrating strong generalization and effective multi-skill integration. Real-world experiments further verify its practicality for multi-skill industrial assembly. The project page can be found at https://hwh23.github.io/ATG-MoE
- Abstract(参考訳): フレキシブルな製造には、常に変化するタスク、オブジェクト、環境に適応できるロボットシステムが必要である。
しかし、従来のロボットプログラミングは労働集約的で柔軟性に欠けるが、既存の学習ベースの組立法は、弱い位置一般化、複雑な多段階設計、限られたマルチスキル統合能力に悩まされることが多い。
これらの課題に対処するため,本論文では,実演から組立技術を学ぶための専門家の混在したエンドツーエンドの自己回帰軌道生成手法であるATG-MoEを提案する。
提案手法は,RGB-D観測,自然言語命令,ロボットによる軌道の操作など,マルチモーダル入力からのクローズドループマッピングを確立する。
シーンとタスクの理解のためのマルチモーダルな特徴融合、時間的コヒーレントな軌道生成のための自己回帰シーケンスモデリング、そしてマルチスキル学習を統一するためのMix-of-expertsアーキテクチャを統合する。
視覚的知覚と制御を分離したり、異なるスキルを個別に訓練する従来の方法とは対照的に、ATG-MoEは、視覚情報を軌道生成に直接組み込んで、単一のモデル内で効率的なマルチスキル統合をサポートする。
本研究では,圧力低減弁組立タスクから8つの代表組立スキルに関する提案手法を訓練し,評価する。
実験の結果,ATG-MoEは96.3%の平均把握成功率,91.8%の総合成功率を有するシミュレーションにおいて,高い総合化と効果的なマルチスキル統合を実現していることがわかった。
実世界の実験は、その実用性をさらに検証する。
プロジェクトページはhttps://hwh23.github.io/ATG-MoEで見ることができる。
関連論文リスト
- MoE-ACT: Scaling Multi-Task Bimanual Manipulation with Sparse Language-Conditioned Mixture-of-Experts Transformers [3.890941830250993]
双方向操作のための軽量なマルチタスク模倣学習フレームワークを提案する。
MoE-ACTは、Sparse Mixture-of-Experts (MoE)モジュールをACTのTransformerエンコーダに統合する。
MoE-ACTはマルチタスク性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2026-03-16T13:33:59Z) - Scaling Tasks, Not Samples: Mastering Humanoid Control through Multi-Task Model-Based Reinforcement Learning [49.82882141491629]
効果的なオンライン学習は、タスク毎のサンプル数ではなく、タスクの回数を拡大すべきである、と我々は主張する。
この体制はモデルに基づく強化学習の構造上の利点を明らかにしている。
我々は、オンライン学習のためのサンプル効率のよいマルチタスクアルゴリズムである textbfEfficientZero-Multitask (EZ-M) を用いて、このアイデアをインスタンス化する。
論文 参考訳(メタデータ) (2026-03-02T05:07:43Z) - MultiGraspNet: A Multitask 3D Vision Model for Multi-gripper Robotic Grasping [8.558823208942277]
MultiGraspNetは、並列グリップと真空グリップの同時ポーズを統一フレームワーク内で予測する新しいマルチタスク3Dディープラーニング手法である。
我々は、単一アームのマルチグリッパーロボットで実世界の実験を行い、我々のアプローチが真空ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2026-02-06T08:56:21Z) - HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning [32.13266149565313]
UniZeroのようなマルチタスクの世界モデルは、シングルタスク設定で優れている。
勾配の矛盾やモデル塑性の喪失はサンプルの効率を阻害することが多い。
本研究では,これらの課題を2つの相補的な視点 – 単一学習イテレーションと全体学習プロセス – から解決する。
論文 参考訳(メタデータ) (2025-09-09T17:27:53Z) - T-REX: Mixture-of-Rank-One-Experts with Semantic-aware Intuition for Multi-task Large Language Model Finetuning [31.276142111455847]
大規模言語モデル(LLM)は多様なマルチタスクの微調整において重要な適応課題に直面している。
我々はmixunderlinetextbfTureunderlinetextbf-of-underlinetextbfRank-onunderlinetextbfE-eunderlinetextbfXper ts (textttT-REX) という新しいフレームワークを設計する。
Rank-1のエキスパートは、ミックス・アンド・マッチのメカニズムにより、線形パラメータのオーバーヘッドを持つエキスパートのベクトル部分空間を2次に拡張し、最適で近似誤差削減を達成することができる。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。