論文の概要: Learning Category-Level Generalizable Object Manipulation Policy via
Generative Adversarial Self-Imitation Learning from Demonstrations
- arxiv url: http://arxiv.org/abs/2203.02107v1
- Date: Fri, 4 Mar 2022 02:52:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 15:42:52.666656
- Title: Learning Category-Level Generalizable Object Manipulation Policy via
Generative Adversarial Self-Imitation Learning from Demonstrations
- Title(参考訳): 生成的敵対的自己模倣学習によるカテゴリーレベル一般化型オブジェクト操作政策の実証
- Authors: Hao Shen, Weikang Wan and He Wang
- Abstract要約: 汎用的なオブジェクト操作スキルは、インテリジェントロボットが現実世界の複雑なシーンで働くために不可欠である。
本研究では,このカテゴリレベルのオブジェクト操作ポリシー学習問題に対して,タスク非依存の手法で模倣学習を行うことで対処する。
本稿では, 実演から生成的対人自己イメージ学習, 差別化の進行的成長, エキスパートバッファのインスタンスバランスなど, 汎用的ながら重要な手法を提案する。
- 参考スコア(独自算出の注目度): 14.001076951265558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizable object manipulation skills are critical for intelligent and
multi-functional robots to work in real-world complex scenes. Despite the
recent progress in reinforcement learning, it is still very challenging to
learn a generalizable manipulation policy that can handle a category of
geometrically diverse articulated objects. In this work, we tackle this
category-level object manipulation policy learning problem via imitation
learning in a task-agnostic manner, where we assume no handcrafted dense
rewards but only a terminal reward. Given this novel and challenging
generalizable policy learning problem, we identify several key issues that can
fail the previous imitation learning algorithms and hinder the generalization
to unseen instances. We then propose several general but critical techniques,
including generative adversarial self-imitation learning from demonstrations,
progressive growing of discriminator, and instance-balancing for expert buffer,
that accurately pinpoints and tackles these issues and can benefit
category-level manipulation policy learning regardless of the tasks. Our
experiments on ManiSkill benchmarks demonstrate a remarkable improvement on all
tasks and our ablation studies further validate the contribution of each
proposed technique.
- Abstract(参考訳): 汎用的なオブジェクト操作スキルは、知的で多機能なロボットが現実世界の複雑な場面で作業するために不可欠である。
近年の強化学習の進歩にもかかわらず、幾何学的に多彩な調音対象のカテゴリを扱える汎用的な操作ポリシーを学ぶことは依然として非常に困難である。
本研究では,手作りの密集した報酬ではなく,端末報酬のみを想定した,タスクに依存しない模倣学習を通じて,このカテゴリレベルのオブジェクト操作ポリシー学習問題に取り組む。
この新奇で難解なポリシ学習問題を考えると,先行した模倣学習アルゴリズムを失敗させる可能性のあるいくつかの重要な問題を特定し,未知のインスタンスへの一般化を妨げる。
次に, 実演から生成的対人自己イメージ学習, 差別化の進展, エキスパートバッファのインスタンスバランスなど, 課題を正確に把握し, 課題によらずカテゴリレベルの操作政策学習に有効である, など, 一般的な手法を提案する。
マニススキルベンチマークを用いた実験は,すべてのタスクにおいて著しい改善を示し,各手法の寄与をさらに検証した。
関連論文リスト
- Active Fine-Tuning of Generalist Policies [54.65568433408307]
AMF(Active Multi-task Fine-tuning)を提案する。
我々は,AMFの性能保証を規則性仮定で導き,複雑・高次元環境における実験的有効性を示す。
論文 参考訳(メタデータ) (2024-10-07T13:26:36Z) - AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents [58.807802111818994]
オープンな語彙の指示に従って物理的に妥当な相互作用を学習する新しい階層的手法であるAnySkillを提案する。
我々のアプローチは、模倣学習によって訓練された低レベルコントローラを介して、一連のアトミックアクションを開発することから始まります。
提案手法の重要な特徴は,手動の報酬工学を使わずにオブジェクトとのインタラクションを学習する,高レベルなポリシーに対する画像ベースの報酬の利用である。
論文 参考訳(メタデータ) (2024-03-19T15:41:39Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Versatile Skill Control via Self-supervised Adversarial Imitation of
Unlabeled Mixed Motions [19.626042478612572]
ラベルのないデータセットから制御可能なスキルセットを用いて多目的ポリシーを得るための協調的敵意的手法を提案する。
生成的模倣学習の枠組みにおいて教師なしのスキル発見を活用することで、新規で有用なスキルが実現し、タスク遂行が成功することを示す。
最後に、得られた多目的ポリシーは、Solo 8と呼ばれるアジャイル四足歩行ロボットでテストされ、デモで符号化された多様なスキルを忠実に再現する。
論文 参考訳(メタデータ) (2022-09-16T12:49:04Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Generalization in Dexterous Manipulation via Geometry-Aware Multi-Task
Learning [108.08083976908195]
既存の強化学習アルゴリズムで学習したポリシーは、実際は一般化可能であることを示す。
本稿では,100以上の幾何学的に異なる実世界のオブジェクトを,単一のジェネラリストポリシーで手動操作できることを示す。
興味深いことに、オブジェクトポイントクラウド表現によるマルチタスク学習は、より一般化するだけでなく、シングルオブジェクトのスペシャリストポリシーよりも優れています。
論文 参考訳(メタデータ) (2021-11-04T17:59:56Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z) - Seeing Differently, Acting Similarly: Imitation Learning with
Heterogeneous Observations [126.78199124026398]
多くの実世界の模倣学習タスクでは、デモレーターと学習者は異なるが完全な観察空間で行動しなければならない。
本研究では、上記の学習問題を異種観察学習(HOIL)としてモデル化する。
本稿では,重要度重み付け,拒否学習,アクティブクエリに基づくIWREアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-17T05:44:04Z) - An Empowerment-based Solution to Robotic Manipulation Tasks with Sparse
Rewards [14.937474939057596]
ロボットマニピュレータは、非常にまばらな指示信号しか提供されていなくても、タスクを達成できることを学ぶことが重要である。
本稿では,任意の標準強化学習アルゴリズムに容易に組み込むことができる本質的な動機づけ手法を提案する。
論文 参考訳(メタデータ) (2020-10-15T19:06:21Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。