論文の概要: Soft Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2002.02089v1
- Date: Thu, 6 Feb 2020 03:57:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:55:25.864285
- Title: Soft Hindsight Experience Replay
- Title(参考訳): ソフトな後見体験リプレイ
- Authors: Qiwei He, Liansheng Zhuang, Houqiang Li
- Abstract要約: ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
- 参考スコア(独自算出の注目度): 77.99182201815763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient learning in the environment with sparse rewards is one of the most
important challenges in Deep Reinforcement Learning (DRL). In continuous DRL
environments such as robotic arms control, Hindsight Experience Replay (HER)
has been shown an effective solution. However, due to the brittleness of
deterministic methods, HER and its variants typically suffer from a major
challenge for stability and convergence, which significantly affects the final
performance. This challenge severely limits the applicability of such methods
to complex real-world domains. To tackle this challenge, in this paper, we
propose Soft Hindsight Experience Replay (SHER), a novel approach based on HER
and Maximum Entropy Reinforcement Learning (MERL), combining the failed
experiences reuse and maximum entropy probabilistic inference model. We
evaluate SHER on Open AI Robotic manipulation tasks with sparse rewards.
Experimental results show that, in contrast to HER and its variants, our
proposed SHER achieves state-of-the-art performance, especially in the
difficult HandManipulation tasks. Furthermore, our SHER method is more stable,
achieving very similar performance across different random seeds.
- Abstract(参考訳): 低報酬環境における効率的な学習は、深層強化学習(DRL)において最も重要な課題の1つである。
ロボットアーム制御などの連続DRL環境では、HER(Hindsight Experience Replay)が有効なソリューションであることが示されている。
しかし、決定論的手法の脆さのため、HERとその変種は通常、安定性と収束性に対する大きな課題に悩まされ、最終的な性能に大きな影響を及ぼす。
この課題は、そのような手法を複雑な実世界ドメインに適用する可能性を大幅に制限する。
この課題に取り組むため,本論文では,経験の再利用と最大エントロピー確率モデルを組み合わせた新しいアプローチであるsoft hindsight experience replay (sher)を提案する。
オープンAIロボット操作タスクにおけるSHERの評価を行った。
実験結果から,本提案手法は,特にハンドマニピュレーションの難しい課題において,その性能が向上することが示された。
さらに、SHER法はより安定しており、異なるランダムシード間で非常によく似た性能が得られる。
関連論文リスト
- MaxInfoRL: Boosting exploration in reinforcement learning through information gain maximization [91.80034860399677]
強化学習アルゴリズムは、現在のベスト戦略の活用と、より高い報酬につながる可能性のある新しいオプションの探索のバランスを図ることを目的としている。
我々は本質的な探索と外生的な探索のバランスをとるためのフレームワークMaxInfoRLを紹介する。
提案手法は,マルチアームバンディットの簡易な設定において,サブリニアな後悔を実現するものである。
論文 参考訳(メタデータ) (2024-12-16T18:59:53Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Never Explore Repeatedly in Multi-Agent Reinforcement Learning [40.35950679063337]
我々は「リビジョン」と戦うための動的報酬スケーリング手法を提案する。
Google Research FootballやStarCraft IIのマイクロマネジメントタスクのような需要のある環境におけるパフォーマンスの向上を示す。
論文 参考訳(メタデータ) (2023-08-19T05:27:48Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - USHER: Unbiased Sampling for Hindsight Experience Replay [12.660090786323067]
報酬の希薄化は強化学習(RL)における長年の課題である
Hindsight Experience Replay (HER)は、ある目標に対して失敗した軌道を他の目標に対して成功した軌道として再利用することでこの問題に対処する。
この戦略は、環境における悪い結果の可能性を過小評価するため、バイアス値関数をもたらすことが知られている。
本稿では,決定論的環境における性能を犠牲にすることなく,この問題に対処する重要度に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:25:06Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。