論文の概要: Hindsight Goal Ranking on Replay Buffer for Sparse Reward Environment
- arxiv url: http://arxiv.org/abs/2110.15043v1
- Date: Thu, 28 Oct 2021 12:09:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-30 02:10:42.282139
- Title: Hindsight Goal Ranking on Replay Buffer for Sparse Reward Environment
- Title(参考訳): スパースリワード環境におけるリプレイバッファの隠れゴールランキング
- Authors: Tung M. Luu, Chang D. Yoo
- Abstract要約: 本稿では,HGR(Hindsight Goal Ranking)と呼ばれるリプレイ体験の優先順位付け手法を提案する。
HGRは時間差(TD)の誤差が大きいエピソードに訪れた状態に対して高い確率で試料を採取した。
提案手法は,非政治モデル自由アクター批判アルゴリズムであるDeep Deterministic Policy Gradient (DDPG)と組み合わせることで,学習の高速化を図る。
- 参考スコア(独自算出の注目度): 16.422215672356167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a method for prioritizing the replay experience referred
to as Hindsight Goal Ranking (HGR) in overcoming the limitation of Hindsight
Experience Replay (HER) that generates hindsight goals based on uniform
sampling. HGR samples with higher probability on the states visited in an
episode with larger temporal difference (TD) error, which is considered as a
proxy measure of the amount which the RL agent can learn from an experience.
The actual sampling for large TD error is performed in two steps: first, an
episode is sampled from the relay buffer according to the average TD error of
its experiences, and then, for the sampled episode, the hindsight goal leading
to larger TD error is sampled with higher probability from future visited
states. The proposed method combined with Deep Deterministic Policy Gradient
(DDPG), an off-policy model-free actor-critic algorithm, accelerates learning
significantly faster than that without any prioritization on four challenging
simulated robotic manipulation tasks. The empirical results show that HGR uses
samples more efficiently than previous methods across all tasks.
- Abstract(参考訳): 本稿では,一様サンプリングに基づく隠れ目標を生成するHER(Hindsight Experience Replay)の限界を克服するために,HGR(Hindsight Goal Ranking)と呼ばれるリプレイ体験の優先順位付け手法を提案する。
HGRサンプルは、RLエージェントが経験から学べる量のプロキシ尺度である時間差(TD)誤差が大きいエピソードに訪れた状態に対して高い確率でサンプリングされる。
大規模なTDエラーの実際のサンプリングは、まず、その経験の平均的なTDエラーに従ってリレーバッファからエピソードをサンプリングし、次に、サンプル化されたエピソードに対して、将来の訪問状態からより大きなTDエラーにつながる後見目標をより高い確率でサンプリングする。
提案手法は,非政治モデルフリーのアクタ批判アルゴリズムであるddpg(deep deterministic policy gradient)と組み合わさって,4つのロボット操作課題の優先順位付けを行わずに学習を高速化する。
実験の結果、HGRは全てのタスクで以前の方法よりも効率的にサンプルを使用することがわかった。
関連論文リスト
- MRHER: Model-based Relay Hindsight Experience Replay for Sequential Object Manipulation Tasks with Sparse Rewards [11.79027801942033]
モデルベース Relay Hindsight Experience Replay (MRHER) と呼ばれる新しいモデルベースRLフレームワークを提案する。
MRHERは、継続的なタスクを複雑さを増してサブタスクに分解し、以前のサブタスクを使用して、その後のタスクの学習をガイドする。
MRHERは、ベンチマークタスクにおいて最先端のサンプル効率を示し、RHERの13.79%、14.29%を上回っている。
論文 参考訳(メタデータ) (2023-06-28T09:51:25Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - ReDi: Efficient Learning-Free Diffusion Inference via Trajectory
Retrieval [68.7008281316644]
ReDiは学習不要なRetrievalベースの拡散サンプリングフレームワークである。
ReDi はモデル推論効率を 2 倍高速化することを示した。
論文 参考訳(メタデータ) (2023-02-05T03:01:28Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Adaptive Sketches for Robust Regression with Importance Sampling [64.75899469557272]
我々は、勾配降下(SGD)による頑健な回帰を解くためのデータ構造を導入する。
我々のアルゴリズムは、サブ線形空間を使用し、データに1回パスするだけで、SGDの$T$ステップを重要サンプリングで効果的に実行します。
論文 参考訳(メタデータ) (2022-07-16T03:09:30Z) - USHER: Unbiased Sampling for Hindsight Experience Replay [12.660090786323067]
報酬の希薄化は強化学習(RL)における長年の課題である
Hindsight Experience Replay (HER)は、ある目標に対して失敗した軌道を他の目標に対して成功した軌道として再利用することでこの問題に対処する。
この戦略は、環境における悪い結果の可能性を過小評価するため、バイアス値関数をもたらすことが知られている。
本稿では,決定論的環境における性能を犠牲にすることなく,この問題に対処する重要度に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:25:06Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Understanding and Mitigating the Limitations of Prioritized Experience
Replay [46.663239542920984]
優先順位付け再生体験(ER)は、多くのドメインでサンプル効率を改善するために実証的に示されている。
平均二乗誤差に対する誤差に基づく優先サンプリング法と立方体電力損失に対する一様サンプリング法との等価性を示す。
次に,早期学習における一様サンプリングによる収束率の向上について理論的考察を行った。
論文 参考訳(メタデータ) (2020-07-19T03:10:02Z) - Experience Replay with Likelihood-free Importance Weights [123.52005591531194]
本研究は,現在の政策の定常分布下での経験を生かし,その可能性に基づいて,その経験を再評価することを提案する。
提案手法は,ソフトアクタ批判 (SAC) とツイン遅延Deep Deterministic Policy gradient (TD3) の2つの競合手法に実証的に適用する。
論文 参考訳(メタデータ) (2020-06-23T17:17:44Z) - SUOD: Accelerating Large-Scale Unsupervised Heterogeneous Outlier
Detection [63.253850875265115]
外乱検出(OD)は、一般的なサンプルから異常物体を識別するための機械学習(ML)タスクである。
そこで我々は,SUODと呼ばれるモジュール型加速度システムを提案する。
論文 参考訳(メタデータ) (2020-03-11T00:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。