論文の概要: Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping
- arxiv url: http://arxiv.org/abs/2410.02475v1
- Date: Thu, 3 Oct 2024 13:33:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 03:01:18.946589
- Title: Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping
- Title(参考訳): Universal Dexterous GraspingのためのMixture-of-Expertsを用いた効率的な残留学習
- Authors: Ziye Huang, Haoqi Yuan, Yuhui Fu, Zongqing Lu,
- Abstract要約: ResDexは、残留ポリシー学習とエキスパートの混合フレームワークを統合する新しいアプローチである。
88.8%の成功率で3,200のオブジェクトからなるDexGraspNetデータセット上での最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 29.546108234906196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal dexterous grasping across diverse objects presents a fundamental yet formidable challenge in robot learning. Existing approaches using reinforcement learning (RL) to develop policies on extensive object datasets face critical limitations, including complex curriculum design for multi-task learning and limited generalization to unseen objects. To overcome these challenges, we introduce ResDex, a novel approach that integrates residual policy learning with a mixture-of-experts (MoE) framework. ResDex is distinguished by its use of geometry-unaware base policies that are efficiently acquired on individual objects and capable of generalizing across a wide range of unseen objects. Our MoE framework incorporates several base policies to facilitate diverse grasping styles suitable for various objects. By learning residual actions alongside weights that combine these base policies, ResDex enables efficient multi-task RL for universal dexterous grasping. ResDex achieves state-of-the-art performance on the DexGraspNet dataset comprising 3,200 objects with an 88.8% success rate. It exhibits no generalization gap with unseen objects and demonstrates superior training efficiency, mastering all tasks within only 12 hours on a single GPU.
- Abstract(参考訳): 多様な物体にまたがる普遍的な巧妙な把握は、ロボット学習の基本的な課題である。
拡張学習(RL)によるオブジェクトデータセットのポリシー開発には、マルチタスク学習のための複雑なカリキュラム設計や、目に見えないオブジェクトへの限定的な一般化など、重要な制約がある。
これらの課題を克服するために、ResDexは、残留ポリシー学習とMix-of-experts(MoE)フレームワークを統合する新しいアプローチである。
ResDexは、個々のオブジェクトに対して効率的に取得され、幅広い未知のオブジェクトをまたいで一般化できる幾何学的無意識な基本ポリシーを使用することで区別される。
私たちのMoEフレームワークは、様々なオブジェクトに適した多様な把握スタイルを促進するために、いくつかの基本ポリシーを組み込んでいます。
ResDexはこれらの基本方針を組み合わす重みを伴う残留作用を学習することにより、普遍的なデクスタリーグルーピングのための効率的なマルチタスクRLを可能にする。
ResDexは3200のオブジェクトと88.8%の成功率からなるDexGraspNetデータセット上で最先端のパフォーマンスを達成する。
目に見えないオブジェクトとの一般化のギャップがなく、訓練効率が良く、1つのGPUでたった12時間ですべてのタスクをマスターできる。
関連論文リスト
- Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - UniDexGrasp++: Improving Dexterous Grasping Policy Learning via
Geometry-aware Curriculum and Iterative Generalist-Specialist Learning [21.82470413326072]
そこで我々は,テーブルトップ設定,すなわち UniDexGrasp++ の下で,デクサラスオブジェクトを把握するための普遍的なポリシーを学習するための,新しいオブジェクトに依存しない手法を提案する。
数千のオブジェクトインスタンスにまたがって視覚ベースのポリシーを学習する課題に対処するために、幾何学を意識したカリキュラム学習(GeoCurriculum)と幾何学を意識した反復的ジェネリスト・スペシャリスト学習(GiGSL)を提案する。
論文 参考訳(メタデータ) (2023-04-02T06:32:19Z) - Information Maximizing Curriculum: A Curriculum-Based Approach for
Imitating Diverse Skills [14.685043874797742]
本稿では,各データポイントに重みを割り当て,表現可能なデータに特化するようにモデルに促すカリキュラムベースのアプローチを提案する。
すべてのモードをカバーし、多様な振る舞いを可能にするため、我々は、各ミックスコンポーネントが学習のためのトレーニングデータの独自のサブセットを選択する、専門家(MoE)ポリシーの混合にアプローチを拡張します。
データセットの完全なカバレッジを実現するために,新たな最大エントロピーに基づく目標を提案する。
論文 参考訳(メタデータ) (2023-03-27T16:02:50Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - Compositional Multi-Object Reinforcement Learning with Linear Relation
Networks [38.59852895970774]
我々は、固定されたマルチオブジェクト設定で操作タスクを学習し、オブジェクトの数が変化するとパフォーマンスが低下することなく、このスキルをゼロショットの外挿できるモデルに焦点を当てる。
我々のアプローチは、$K$で線形にスケールするので、エージェントは新しいオブジェクト番号にゼロショットを外挿して一般化することができる。
論文 参考訳(メタデータ) (2022-01-31T17:53:30Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。