Fugu-MT 論文翻訳(概要): Learning Dexterous Manipulation from Suboptimal Experts

論文の概要: Learning Dexterous Manipulation from Suboptimal Experts

arxiv url: http://arxiv.org/abs/2010.08587v2
Date: Tue, 5 Jan 2021 17:22:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 21:40:34.811748
Title: Learning Dexterous Manipulation from Suboptimal Experts
Title（参考訳）: 準最適専門家からDexterous Manipulationを学ぶ
Authors: Rae Jeong, Jost Tobias Springenberg, Jackie Kay, Daniel Zheng, Yuxiang Zhou, Alexandre Galashov, Nicolas Heess, Francesco Nori
Abstract要約: 相対エントロピーQラーニング(Relative Entropy Q-Learning、REQ)は、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせた単純なポリシーアルゴリズムである。本稿では、REQが、デモから一般の政治外RL、オフラインRL、およびRLにどのように有効であるかを示す。
参考スコア（独自算出の注目度）: 69.8017067648129
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning dexterous manipulation in high-dimensional state-action spaces is an important open challenge with exploration presenting a major bottleneck. Although in many cases the learning process could be guided by demonstrations or other suboptimal experts, current RL algorithms for continuous action spaces often fail to effectively utilize combinations of highly off-policy expert data and on-policy exploration data. As a solution, we introduce Relative Entropy Q-Learning (REQ), a simple policy iteration algorithm that combines ideas from successful offline and conventional RL algorithms. It represents the optimal policy via importance sampling from a learned prior and is well-suited to take advantage of mixed data distributions. We demonstrate experimentally that REQ outperforms several strong baselines on robotic manipulation tasks for which suboptimal experts are available. We show how suboptimal experts can be constructed effectively by composing simple waypoint tracking controllers, and we also show how learned primitives can be combined with waypoint controllers to obtain reference behaviors to bootstrap a complex manipulation task on a simulated bimanual robot with human-like hands. Finally, we show that REQ is also effective for general off-policy RL, offline RL, and RL from demonstrations. Videos and further materials are available at sites.google.com/view/rlfse.
Abstract（参考訳）: 高次元状態-アクション空間におけるデクスタース操作の学習は、大きなボトルネックを提示した探索において重要な課題である。多くの場合、学習プロセスは、デモンストレーションやその他の準最適専門家によって導かれるが、継続的なアクション空間のための現在のrlアルゴリズムは、高度にオフポリシーな専門家データとオンポリティカルな探索データの組み合わせを効果的に利用できないことが多い。解決策として、オフラインおよび従来のRLアルゴリズムのアイデアを組み合わせたシンプルなポリシー反復アルゴリズムであるRelative Entropy Q-Learning(REQ)を導入する。これは、学習前の重要サンプリングによる最適ポリシーであり、混合データ分布を利用するのに適している。実験により、REQは、ロボット操作タスクにおいて、準最適の専門家が利用できるいくつかの強力なベースラインを上回ります。簡単なウェイポイントトラッキングコントローラを構成することで、最適下界の専門家を効果的に構築できることを示すとともに、学習したプリミティブをウェイポイントコントローラと組み合わせて、人間の手によるシミュレーションされたバイマニュアルロボットの複雑な操作タスクをブートストラップする参照動作を得る方法を示す。最後に、REQは、デモから、一般的な政治外のRL、オフラインのRL、およびRLにも有効であることを示す。ビデオとさらなる資料はsites.google.com/view/rlfseで入手できる。

関連論文リスト

Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文参考訳（メタデータ） (2024-11-19T01:23:52Z)
Equivariant Offline Reinforcement Learning [7.822389399560674]
実演数が少ないオフラインRLに対して,$SO(2)$-equivariantなニューラルネットワークを使用することを検討した。実験の結果,保守的Q-Learning(CQL)とImplicit Q-Learning(IQL)の同変バージョンは,同変でないQ-Learningよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-06-20T03:02:49Z)
Hybrid Inverse Reinforcement Learning [34.793570631021005]
逆強化学習による模倣学習は両刃剣である。我々は、不要な探索を抑えるために、ハイブリッドRL(オンラインデータとエキスパートデータの混合に関するトレーニング)の使用を提案する。モデルフリーとモデルベースハイブリッド逆RLアルゴリズムの両方を導出し、強力なポリシー性能を保証する。
論文参考訳（メタデータ） (2024-02-13T23:29:09Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文参考訳（メタデータ） (2023-09-06T19:05:31Z)
Implicit Offline Reinforcement Learning via Supervised Learning [83.8241505499762]
監視学習によるオフライン強化学習(RL)は、さまざまな専門レベルのポリシーによって収集されたデータセットからロボットスキルを学ぶための、シンプルで効果的な方法である。我々は、暗黙的なモデルが返却情報を利用して、固定されたデータセットからロボットスキルを取得するために、明示的なアルゴリズムにマッチするか、あるいは性能を向上するかを示す。
論文参考訳（メタデータ） (2022-10-21T21:59:42Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
AWAC: Accelerating Online Reinforcement Learning with Offline Datasets [84.94748183816547]
提案手法は,従来の実演データとオンライン体験を組み合わせることで,スキルの素早い学習を可能にする。以上の結果から,事前データを組み込むことで,ロボット工学を実践的な時間スケールまで学習するのに要する時間を短縮できることが示唆された。
論文参考訳（メタデータ） (2020-06-16T17:54:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。