論文の概要: Dexterous Robotic Manipulation using Deep Reinforcement Learning and
Knowledge Transfer for Complex Sparse Reward-based Tasks
- arxiv url: http://arxiv.org/abs/2205.09683v1
- Date: Thu, 19 May 2022 16:40:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:33:40.018647
- Title: Dexterous Robotic Manipulation using Deep Reinforcement Learning and
Knowledge Transfer for Complex Sparse Reward-based Tasks
- Title(参考訳): 深部強化学習と知識伝達を用いた複雑なスパース・リワード型タスクのためのデクサラスロボットマニピュレーション
- Authors: Qiang Wang, Francisco Roldan Sanchez, Robert McCarthy, David Cordova
Bulens, Kevin McGuinness, Noel O'Connor, Manuel W\"uthrich, Felix Widmaier,
Stefan Bauer, Stephen J. Redmond
- Abstract要約: 本稿では,Real Robot Challenge (RRC) 2021のフェーズ1で優勝した深層強化学習(DRL)アプローチについて述べる。
本手法は,ロボットが特定の方向に立方体を維持するために,RCのフェーズ1のタスクを変更することで拡張する。
- 参考スコア(独自算出の注目度): 23.855931395239747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes a deep reinforcement learning (DRL) approach that won
Phase 1 of the Real Robot Challenge (RRC) 2021, and then extends this method to
a more difficult manipulation task. The RRC consisted of using a TriFinger
robot to manipulate a cube along a specified positional trajectory, but with no
requirement for the cube to have any specific orientation. We used a relatively
simple reward function, a combination of goal-based sparse reward and distance
reward, in conjunction with Hindsight Experience Replay (HER) to guide the
learning of the DRL agent (Deep Deterministic Policy Gradient (DDPG)). Our
approach allowed our agents to acquire dexterous robotic manipulation
strategies in simulation. These strategies were then applied to the real robot
and outperformed all other competition submissions, including those using more
traditional robotic control techniques, in the final evaluation stage of the
RRC. Here we extend this method, by modifying the task of Phase 1 of the RRC to
require the robot to maintain the cube in a particular orientation, while the
cube is moved along the required positional trajectory. The requirement to also
orient the cube makes the agent unable to learn the task through blind
exploration due to increased problem complexity. To circumvent this issue, we
make novel use of a Knowledge Transfer (KT) technique that allows the
strategies learned by the agent in the original task (which was agnostic to
cube orientation) to be transferred to this task (where orientation matters).
KT allowed the agent to learn and perform the extended task in the simulator,
which improved the average positional deviation from 0.134 m to 0.02 m, and
average orientation deviation from 142{\deg} to 76{\deg} during evaluation.
This KT concept shows good generalisation properties and could be applied to
any actor-critic learning algorithm.
- Abstract(参考訳): 本稿では,Real Robot Challenge (RRC) 2021のフェーズ1に勝った深層強化学習(DRL)アプローチについて述べる。
RRCは、TriFingerロボットを使用して特定の位置軌道に沿って立方体を操作するが、立方体が特定の向きを持つ必要はない。
DRLエージェント(Deep Deterministic Policy Gradient, DDPG)の学習を指導するために, 比較的単純な報酬関数, ゴールベーススパース報酬と距離報酬を組み合わせたHindsight Experience Replay(HER)を用いた。
我々の手法により、エージェントはシミュレーションにおいて巧妙なロボット操作戦略を習得することができた。
これらの戦略はその後、実際のロボットに適用され、rrcの最終評価段階において、より伝統的なロボット制御技術を使用するものを含む、他の全ての競争提案を上回った。
ここでは、ロボットがキューブを特定の方向に維持し、キューブが必要な位置の軌道に沿って移動するように、rrcの第1相のタスクを変更することで、この方法を拡張する。
立方体をオリエントする要求は、問題を複雑化するため、盲目的探索によってタスクを学習できないようにする。
この問題を回避するために,我々は,エージェントが学習した戦略(立方体配向に依存しない)を,このタスク(配向が重要な部分)に転送することのできる,知識伝達(KT)手法を新たに導入する。
KTは、エージェントがシミュレータで拡張タスクを学習し実行し、平均位置偏差を0.134mから0.02mに改善し、評価中に平均方向偏差を142{\deg}から76{\deg}に改善した。
このKT概念は優れた一般化特性を示し、アクター批判学習アルゴリズムに適用できる。
関連論文リスト
- SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Mission-driven Exploration for Accelerated Deep Reinforcement Learning
with Temporal Logic Task Specifications [11.812602599752294]
未知の構造を持つ環境で動作している未知のダイナミクスを持つロボットについて考察する。
我々の目標は、オートマトン符号化されたタスクを満足する確率を最大化する制御ポリシーを合成することである。
そこで本研究では,制御ポリシーを類似手法と比較して顕著に高速に学習できるDRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from
Offline Data [101.43350024175157]
自己指導型学習は、制御戦略を学ぶのに必要な人間のアノテーションとエンジニアリングの労力を減らす可能性がある。
我々の研究は、強化学習(RL)自体が自己監督的な問題であることを示す先行研究に基づいている。
コントラスト学習に基づく自己教師付きRLアルゴリズムは,実世界の画像に基づくロボット操作タスクを解くことができることを示す。
論文 参考訳(メタデータ) (2023-06-06T01:36:56Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - Real Robot Challenge using Deep Reinforcement Learning [6.332038240397164]
本稿では,2021年リアルロボットチャレンジの第1フェーズの優勝を詳述する。
課題は、3本指のロボットが特定の目標軌道に沿って立方体を運ばなければならないことだ。
我々は、ロボットシステムの知識を最小限にする必要のある、純粋な強化学習アプローチを使用している。
論文 参考訳(メタデータ) (2021-09-30T16:12:17Z) - CausalWorld: A Robotic Manipulation Benchmark for Causal Structure and
Transfer Learning [138.40338621974954]
CausalWorldは、ロボット操作環境における因果構造と伝達学習のベンチマークである。
タスクは、ブロックのセットから3D形状を構築することで構成される。
論文 参考訳(メタデータ) (2020-10-08T23:01:13Z) - Deep Adversarial Reinforcement Learning for Object Disentangling [36.66974848126079]
本稿では, 廃棄物の密接化を図り, 対人強化学習(ARL)フレームワークを提案する。
ARLフレームワークは、元のエージェントであるプロタゴニストを挑戦する状態に操るために訓練された敵を利用する。
本手法は,ロボット制御のためのエンドツーエンドシステムを用いて,難易度の高い物体分離タスクを学習することにより,シナリオの学習からテストまでを一般化できることを示す。
論文 参考訳(メタデータ) (2020-03-08T13:20:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。