論文の概要: Learning Dexterous Manipulation from Suboptimal Experts
- arxiv url: http://arxiv.org/abs/2010.08587v2
- Date: Tue, 5 Jan 2021 17:22:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 21:40:34.811748
- Title: Learning Dexterous Manipulation from Suboptimal Experts
- Title(参考訳): 準最適専門家からDexterous Manipulationを学ぶ
- Authors: Rae Jeong, Jost Tobias Springenberg, Jackie Kay, Daniel Zheng, Yuxiang
Zhou, Alexandre Galashov, Nicolas Heess, Francesco Nori
- Abstract要約: 相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。
本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
- 参考スコア(独自算出の注目度): 69.8017067648129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning dexterous manipulation in high-dimensional state-action spaces is an
important open challenge with exploration presenting a major bottleneck.
Although in many cases the learning process could be guided by demonstrations
or other suboptimal experts, current RL algorithms for continuous action spaces
often fail to effectively utilize combinations of highly off-policy expert data
and on-policy exploration data. As a solution, we introduce Relative Entropy
Q-Learning (REQ), a simple policy iteration algorithm that combines ideas from
successful offline and conventional RL algorithms. It represents the optimal
policy via importance sampling from a learned prior and is well-suited to take
advantage of mixed data distributions. We demonstrate experimentally that REQ
outperforms several strong baselines on robotic manipulation tasks for which
suboptimal experts are available. We show how suboptimal experts can be
constructed effectively by composing simple waypoint tracking controllers, and
we also show how learned primitives can be combined with waypoint controllers
to obtain reference behaviors to bootstrap a complex manipulation task on a
simulated bimanual robot with human-like hands. Finally, we show that REQ is
also effective for general off-policy RL, offline RL, and RL from
demonstrations. Videos and further materials are available at
sites.google.com/view/rlfse.
- Abstract(参考訳): 高次元状態-アクション空間におけるデクスタース操作の学習は、大きなボトルネックを提示した探索において重要な課題である。
多くの場合、学習プロセスは、デモンストレーションやその他の準最適専門家によって導かれるが、継続的なアクション空間のための現在のrlアルゴリズムは、高度にオフポリシーな専門家データとオンポリティカルな探索データの組み合わせを効果的に利用できないことが多い。
解決策として、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせたシンプルなポリシー反復アルゴリズムであるRelative Entropy Q-Learning(REQ)を導入する。
これは、学習前の重要サンプリングによる最適ポリシーであり、混合データ分布を利用するのに適している。
実験により、REQは、ロボット操作タスクにおいて、準最適の専門家が利用できるいくつかの強力なベースラインを上回ります。
簡単なウェイポイントトラッキングコントローラを構成することで、最適下界の専門家を効果的に構築できることを示すとともに、学習したプリミティブをウェイポイントコントローラと組み合わせて、人間の手によるシミュレーションされたバイマニュアルロボットの複雑な操作タスクをブートストラップする参照動作を得る方法を示す。
最後に、REQは、デモから、一般的な政治外のRL、オフラインのRL、およびRLにも有効であることを示す。
ビデオとさらなる資料はsites.google.com/view/rlfseで入手できる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。
実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-06-20T03:02:49Z) - REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。
我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文 参考訳(メタデータ) (2022-10-21T21:59:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。
以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文 参考訳(メタデータ) (2020-06-16T17:54:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。