論文の概要: Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards
- arxiv url: http://arxiv.org/abs/2208.00843v1
- Date: Mon, 1 Aug 2022 13:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 14:28:43.704950
- Title: Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards
- Title(参考訳): Relay Hindsight Experience Replay:Sparse Rewardsを用いたロボット操作タスクの継続的強化学習
- Authors: Yongle Luo, Yuxin Wang, Kun Dong, Qiang Zhang, Erkang Cheng, Zhiyong
Sun and Bo Song
- Abstract要約: 我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。
提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。
実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
- 参考スコア(独自算出の注目度): 26.998587654269873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning with sparse rewards is usually inefficient in Reinforcement Learning
(RL). Hindsight Experience Replay (HER) has been shown an effective solution to
handle the low sample efficiency that results from sparse rewards by goal
relabeling. However, the HER still has an implicit virtual-positive sparse
reward problem caused by invariant achieved goals, especially for robot
manipulation tasks. To solve this problem, we propose a novel model-free
continual RL algorithm, called Relay-HER (RHER). The proposed method first
decomposes and rearranges the original long-horizon task into new sub-tasks
with incremental complexity. Subsequently, a multi-task network is designed to
learn the sub-tasks in ascending order of complexity. To solve the
virtual-positive sparse reward problem, we propose a Random-Mixed Exploration
Strategy (RMES), in which the achieved goals of the sub-task with higher
complexity are quickly changed under the guidance of the one with lower
complexity. The experimental results indicate the significant improvements in
sample efficiency of RHER compared to vanilla-HER in five typical robot
manipulation tasks, including Push, PickAndPlace, Drawer, Insert, and
ObstaclePush. The proposed RHER method has also been applied to learn a
contact-rich push task on a physical robot from scratch, and the success rate
reached 10/10 with only 250 episodes.
- Abstract(参考訳): スパース報酬による学習は通常、強化学習(RL)では非効率である。
Hindsight Experience Replay (HER)は、ゴールレバリングによるスパース報酬による低いサンプル効率を扱う効果的なソリューションとして示されている。
しかし、HERは、特にロボット操作タスクにおいて、不変の達成目標に起因する暗黙の仮想陽性スパース報酬問題を持っている。
そこで本研究では,Relay-HER (RHER) と呼ばれるモデルレス連続RLアルゴリズムを提案する。
提案手法は, もともとのロングホリゾンタスクをインクリメンタルな新しいサブタスクに分解し, 再構成する。
その後、マルチタスクネットワークは、複雑さの順にサブタスクを学習するように設計される。
仮想正のスパース報酬問題を解くために,より複雑なサブタスクの達成目標を,より少ない複雑性のサブタスクの指導の下で迅速に変更する,ランダム混合探索戦略(rmes)を提案する。
実験結果は,プッシュ,ピックアンドプレース,引き出し,挿入,障害物プッシュの5つの典型的なロボット操作タスクにおいて,rhelのサンプル効率がバニラハーに比べて有意に向上したことを示している。
提案手法は,実ロボットの接触が多いプッシュタスクをスクラッチから学習するためにも適用されており,成功率は250エピソードで10/10に達した。
関連論文リスト
- REBOOT: Reuse Data for Bootstrapping Efficient Real-World Dexterous
Manipulation [61.7171775202833]
本稿では,強化学習による巧妙な操作スキルの学習を効率化するシステムを提案する。
我々のアプローチの主な考え方は、サンプル効率のRLとリプレイバッファブートストラップの最近の進歩の統合である。
本システムでは,実世界の学習サイクルを,模倣に基づくピックアップポリシを通じて学習されたリセットを組み込むことで完遂する。
論文 参考訳(メタデータ) (2023-09-06T19:05:31Z) - MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards [11.79027801942033]
モデルベース Relay Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースRLフレームワークを提案する。
MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。
MRHERは、ベンチマークタスクにおいて最先端のサンプル効率を示し、RHERの13.79%、14.29%を上回っている。
論文 参考訳(メタデータ) (2023-06-28T09:51:25Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Reset-Free Reinforcement Learning via Multi-Task Learning: Learning
Dexterous Manipulation Behaviors without Human Intervention [67.1936055742498]
マルチタスク学習は、リセットフリーの学習スキームをはるかに複雑な問題に効果的にスケールできることを示す。
この研究は、人間の介入なしにRLを用いて現実世界での巧妙な操作行動を学ぶ能力を示す。
論文 参考訳(メタデータ) (2021-04-22T17:38:27Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - Gradient Surgery for Multi-Task Learning [119.675492088251]
マルチタスク学習は、複数のタスク間で構造を共有するための有望なアプローチとして登場した。
マルチタスク学習がシングルタスク学習と比較して難しい理由は、完全には理解されていない。
本稿では,他の作業の勾配の正規平面上にタスクの勾配を投影する勾配手術の一形態を提案する。
論文 参考訳(メタデータ) (2020-01-19T06:33:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。