論文の概要: Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations
- arxiv url: http://arxiv.org/abs/2303.16469v1
- Date: Wed, 29 Mar 2023 05:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 15:55:46.402320
- Title: Learning Complicated Manipulation Skills via Deterministic Policy with
Limited Demonstrations
- Title(参考訳): 限定デモによる決定論的政策による複雑な操作スキルの学習
- Authors: Liu Haofeng, Chen Yiwen, Tan Jiayi, Marcelo H Ang
- Abstract要約: 深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
実際に十分な高品質なデモを収集するのには時間がかかる。
人間のデモはロボットには適さないかもしれない。
- 参考スコア(独自算出の注目度): 9.640594614636049
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Combined with demonstrations, deep reinforcement learning can efficiently
develop policies for manipulators. However, it takes time to collect sufficient
high-quality demonstrations in practice. And human demonstrations may be
unsuitable for robots. The non-Markovian process and over-reliance on
demonstrations are further challenges. For example, we found that RL agents are
sensitive to demonstration quality in manipulation tasks and struggle to adapt
to demonstrations directly from humans. Thus it is challenging to leverage
low-quality and insufficient demonstrations to assist reinforcement learning in
training better policies, and sometimes, limited demonstrations even lead to
worse performance.
We propose a new algorithm named TD3fG (TD3 learning from a generator) to
solve these problems. It forms a smooth transition from learning from experts
to learning from experience. This innovation can help agents extract prior
knowledge while reducing the detrimental effects of the demonstrations. Our
algorithm performs well in Adroit manipulator and MuJoCo tasks with limited
demonstrations.
- Abstract(参考訳): デモと組み合わせることで、深層強化学習はマニピュレータのポリシーを効率的に開発することができる。
しかし、実際に十分な品質のデモンストレーションを集めるには時間がかかる。
人間のデモはロボットには不向きかもしれない。
非マルコフ過程とデモへの過度信頼はさらなる課題である。
例えば、RLエージェントは、操作タスクのデモ品質に敏感であり、人間から直接のデモに適応するのに苦労している。
したがって、より良い政策を訓練する際の強化学習を支援するために、低品質で不十分なデモンストレーションを活用するのは難しい。
これらの問題を解決するために,TD3fG (TD3 Learning from a generator) という新しいアルゴリズムを提案する。
専門家からの学習から経験からの学習へとスムーズに移行します。
このイノベーションは、エージェントが事前の知識を抽出し、デモンストレーションの有害な効果を減らすのに役立つ。
Adroit のマニピュレータと MuJoCo タスクでは, 限られた実演でよく動作する。
関連論文リスト
- RoboCLIP: One Demonstration is Enough to Learn Robot Policies [72.24495908759967]
RoboCLIPは、オンラインの模倣学習手法であり、ビデオデモの形式で1つのデモンストレーションまたはタスクのテキスト記述を使用して報酬を生成する。
RoboCLIPは、報酬生成のタスクを解決した人間のビデオや、同じデモやデプロイメントドメインを持つ必要を回避するなど、ドメイン外のデモも利用することができる。
論文 参考訳(メタデータ) (2023-10-11T21:10:21Z) - Skill Disentanglement for Imitation Learning from Suboptimal
Demonstrations [60.241144377865716]
我々は、小さなクリーンな実演セットと大きなノイズセットの両方で、準最適実演の模倣を考える。
本稿では,様々な品質のアクションプリミティブを異なるスキルに符号化し,サブデモレーションレベルの評価と模倣を行う手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T17:24:37Z) - A Survey of Demonstration Learning [0.0]
実証学習(Demonstration Learning)は、エージェントがデモンストレーションで示された専門家の行動を模倣してタスクを実行することを学習するパラダイムである。
デモから複雑な振る舞いを学ぶ大きな可能性を秘めているため、大きな注目を集めている。
環境と対話することなく学習することで、デモ学習はロボット工学や医療といった幅広い現実世界の応用を自動化できる。
論文 参考訳(メタデータ) (2023-03-20T15:22:10Z) - Cross-Domain Transfer via Semantic Skill Imitation [49.83150463391275]
本稿では、例えば人間ビデオなどのソースドメインからのデモンストレーションを利用して、強化学習(RL)を高速化する意味模倣手法を提案する。
関節速度のような低レベルな動作を模倣する代わりに、我々のアプローチは「電子レンジを開く」や「ストーブを回す」といった、実証された意味的なスキルのシーケンスを模倣する。
論文 参考訳(メタデータ) (2022-12-14T18:46:14Z) - Learning Agile Skills via Adversarial Imitation of Rough Partial
Demonstrations [19.257876507104868]
アジャイルスキルの習得は,ロボティクスにおける大きな課題のひとつだ。
本稿では,部分的かつ物理的に互換性のない実演から報酬関数を推定するための生成的逆数法を提案する。
我々は、Wasserstein GANの定式化と、粗い情報と部分的な情報を入力とするデモからの遷移によって、堅牢で実証行動の模倣が可能なポリシーを抽出できることを示した。
論文 参考訳(メタデータ) (2022-06-23T13:34:11Z) - Self-Imitation Learning from Demonstrations [4.907551775445731]
セルフ・イミテーション・ラーニング(Self-Imitation Learning)は、エージェントの過去の良い経験を利用して、準最適デモンストレーションから学ぶ。
SILfDはノイズの多いデモから学習できることを示す。
また、スパース環境における既存の最先端LfDアルゴリズムよりもSILfDの方が優れていることも見出した。
論文 参考訳(メタデータ) (2022-03-21T11:56:56Z) - Improving Learning from Demonstrations by Learning from Experience [4.605233477425785]
我々は、専門家から経験から学びへスムーズに移行できるTD3fGという新しいアルゴリズムを提案する。
本アルゴリズムは,MUJOCO環境において,限定的かつ準最適な実演を行い,優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-16T00:40:31Z) - Bottom-Up Skill Discovery from Unsegmented Demonstrations for
Long-Horizon Robot Manipulation [55.31301153979621]
我々は,実世界の長距離ロボット操作作業に,スキル発見による取り組みを行う。
未解決のデモンストレーションから再利用可能なスキルのライブラリを学ぶためのボトムアップアプローチを提案する。
提案手法は,多段階操作タスクにおける最先端の模倣学習手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-09-28T16:18:54Z) - Learning from Imperfect Demonstrations from Agents with Varying Dynamics [29.94164262533282]
我々は,実演が模倣学習にどの程度有用かを測定するために,実現可能性スコアと最適度スコアからなる指標を開発した。
シミュレーションと実ロボットによる4つの環境実験により,学習方針の改善が期待された。
論文 参考訳(メタデータ) (2021-03-10T07:39:38Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - State-Only Imitation Learning for Dexterous Manipulation [63.03621861920732]
本稿では,国家のみの模倣学習について考察する。
我々は、逆ダイナミクスモデルをトレーニングし、状態のみのデモンストレーションのアクションを予測するためにそれを使用します。
我々の手法は状態-作用アプローチと同等に動作し、RL単独よりもかなり優れています。
論文 参考訳(メタデータ) (2020-04-07T17:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。