論文の概要: Bias-reduced multi-step hindsight experience replay
- arxiv url: http://arxiv.org/abs/2102.12962v1
- Date: Thu, 25 Feb 2021 16:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 13:56:27.241385
- Title: Bias-reduced multi-step hindsight experience replay
- Title(参考訳): Bias-Reduced Multi-step Hindsight Experience Replay
- Authors: Rui Yang, Jiafei Lyu, Yu Yang, Jiangpeng Ya, Feng Luo, Dijun Luo,
Lanqing Li, Xiu Li
- Abstract要約: マルチゴール強化学習における2つの主な課題は、スパース報酬とサンプル非効率である。
Hindsight Experience Replay (HER)は、隠れた知識で2つの課題に取り組むことを目的としている。
n$-stepリラベルに基づくmphMulti-step Hindsight Experience Replay(MHER)を提案し、マルチステップリラベルリターンを取り入れてサンプル効率を向上させます。
- 参考スコア(独自算出の注目度): 12.277806851513835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-goal reinforcement learning is widely used in planning and robot
manipulation. Two main challenges in multi-goal reinforcement learning are
sparse rewards and sample inefficiency. Hindsight Experience Replay (HER) aims
to tackle the two challenges with hindsight knowledge. However, HER and its
previous variants still need millions of samples and a huge computation. In
this paper, we propose \emph{Multi-step Hindsight Experience Replay} (MHER)
based on $n$-step relabeling, incorporating multi-step relabeled returns to
improve sample efficiency. Despite the advantages of $n$-step relabeling, we
theoretically and experimentally prove the off-policy $n$-step bias introduced
by $n$-step relabeling may lead to poor performance in many environments. To
address the above issue, two bias-reduced MHER algorithms, MHER($\lambda$) and
Model-based MHER (MMHER) are presented. MHER($\lambda$) exploits the $\lambda$
return while MMHER benefits from model-based value expansions. Experimental
results on numerous multi-goal robotic tasks show that our solutions can
successfully alleviate off-policy $n$-step bias and achieve significantly
higher sample efficiency than HER and Curriculum-guided HER with little
additional computation beyond HER.
- Abstract(参考訳): マルチゴール強化学習は、計画やロボット操作に広く用いられている。
マルチゴール強化学習における2つの主な課題は、スパース報酬とサンプル非効率である。
Hindsight Experience Replay (HER)は、隠れた知識で2つの課題に取り組むことを目的としている。
しかし、彼女とその以前の変種は何百万ものサンプルと膨大な計算を必要とする。
本稿では,$n$-step relabelingに基づいて,複数ステップのrelabeled returnを組み込んだMHER(emph{Multi-step Hindsight Experience Replay})を提案する。
n$-step relabelingの利点にもかかわらず、理論的および実験的に$ n$-step relabelingによって導入されたオフポリシー$ n$-stepバイアスが多くの環境でパフォーマンスが低下する可能性があることを証明しています。
上記の問題に対処するため、2つのバイアス低減MHERアルゴリズム、MHER($\lambda$)とモデルベースMHER(MMHER)を示す。
MHER($\lambda$)は$\lambda$戻り値を使い、MMHERはモデルベースの値拡張の恩恵を受ける。
多数のマルチゴールロボットタスクの実験結果から,HER以外の計算量が少ないHERやCurriculum-guided HERよりも高いサンプリング効率を実現することができることがわかった。
関連論文リスト
- An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Higher Replay Ratio Empowers Sample-Efficient Multi-Agent Reinforcement Learning [47.17030172520195]
MARL(Multi-Agent Reinforcement Learning)のサンプル効率は、その固有の部分的可観測性、非定常トレーニング、および巨大な戦略空間のため、より困難である。
広く使われているエピソードトレーニング機構は、サンプル効率の低下の原因となる可能性があると論じる。
既に収集したデータをよりよく活用するために,環境相互作用毎の勾配更新の頻度を高めることを提案する。
論文 参考訳(メタデータ) (2024-04-15T12:18:09Z) - Averaging $n$-step Returns Reduces Variance in Reinforcement Learning [24.072317774998606]
我々は、分散を減らすために複合戻り値 -- 平均$n$-step戻り値の重み付け平均 -- の能力を実証する。
さらに,この分散還元特性が時間差学習の有限サンプル複雑性を向上させることを証明した。
一般化合物リターンは実装に費用がかかるため,効率を保ちながら分散を低減する2ブートストラップリターンを導入する。
論文 参考訳(メタデータ) (2024-02-06T11:13:57Z) - Characterizing Datapoints via Second-Split Forgetting [93.99363547536392]
我々は、オリジナルのトレーニング例が忘れられた後(もしあれば)のエポックを追跡する補足的メトリックである$$-second-$split$$forgetting$$$time$ (SSFT)を提案する。
例えば$mislabeled$の例はすぐに忘れられ、$rare$の例は比較的ゆっくりと忘れられています。
SSFTは、(i)間違ったラベル付きサンプルを識別し、その除去により一般化が向上し、(ii)障害モードに関する洞察を提供する。
論文 参考訳(メタデータ) (2022-10-26T21:03:46Z) - Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards [26.998587654269873]
我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。
提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。
実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-08-01T13:30:01Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Reinforcement Learning in Reward-Mixing MDPs [74.41782017817808]
報酬混合マルコフ決定過程(MDP)におけるエピソード強化学習
cdot S2 A2)$ episodes, where$H$ is time-horizon and $S, A$ are the number of state and actions。
epsilon$-optimal policy after $tildeO(poly(H,epsilon-1) cdot S2 A2)$ episodes, $H$ is time-horizon and $S, A$ are the number of state and actions。
論文 参考訳(メタデータ) (2021-10-07T18:55:49Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。