論文の概要: Hindsight Experience Replay with Kronecker Product Approximate Curvature
- arxiv url: http://arxiv.org/abs/2010.06142v1
- Date: Fri, 9 Oct 2020 20:25:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 06:07:56.424193
- Title: Hindsight Experience Replay with Kronecker Product Approximate Curvature
- Title(参考訳): Kroneckerの製品近似曲線を用いたHintsight Experience Replay
- Authors: Dhuruva Priyan G M, Abhik Singla, Shalabh Bhatnagar
- Abstract要約: Hindsight Experience Replay (HER) は強化学習タスクを解決するアルゴリズムの1つである。
しかし、サンプル効率が低下し、収束が遅いため、HERは効率よく動作しない。
自然勾配はモデルパラメータをより収束させることによってこれらの課題を解決する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決し, 成功率を向上する。
- 参考スコア(独自算出の注目度): 5.441932327359051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hindsight Experience Replay (HER) is one of the efficient algorithm to solve
Reinforcement Learning tasks related to sparse rewarded environments.But due to
its reduced sample efficiency and slower convergence HER fails to perform
effectively. Natural gradients solves these challenges by converging the model
parameters better. It avoids taking bad actions that collapse the training
performance. However updating parameters in neural networks requires expensive
computation and thus increase in training time. Our proposed method solves the
above mentioned challenges with better sample efficiency and faster convergence
with increased success rate. A common failure mode for DDPG is that the learned
Q-function begins to dramatically overestimate Q-values, which then leads to
the policy breaking, because it exploits the errors in the Q-function. We solve
this issue by including Twin Delayed Deep Deterministic Policy Gradients(TD3)
in HER. TD3 learns two Q-functions instead of one and it adds noise tothe
target action, to make it harder for the policy to exploit Q-function errors.
The experiments are done with the help of OpenAis Mujoco environments. Results
on these environments show that our algorithm (TDHER+KFAC) performs better
inmost of the scenarios
- Abstract(参考訳): hindsight experience replay (her) はスパース報酬環境に関連する強化学習タスクを解決する効率的なアルゴリズムの1つであるが、サンプル効率が低下し、収束が遅くなるため、効果的に実行できない。
自然勾配はモデルパラメータをよりよく収束させることでこれらの課題を解決します。
トレーニングパフォーマンスを崩壊させる悪い行動を取るのを避けます。
しかし、ニューラルネットワークのパラメータの更新には高価な計算が必要であるため、トレーニング時間が増加する。
提案手法は, 以上の課題を, より優れたサンプル効率, より高速な収束で解決する。
ddpgの一般的な障害モードは、学習されたq-関数がq-値を劇的に過大評価し始め、q-関数のエラーを悪用するためポリシーを破る。
HER に Twin Delayed Deep Deterministic Policy Gradients (TD3) を含めることでこの問題を解決する。
TD3は1つではなく2つのQ関数を学習し、ターゲットアクションにノイズを加えることで、Q関数のエラーを利用するポリシーを難しくする。
実験はOpenAis Mujoco環境の助けを借りて行われた。
これらの環境における結果から、我々のアルゴリズム(tdher+kfac)は、ほとんどのシナリオにおいてより良い性能を示す。
関連論文リスト
- Near-Optimal Solutions of Constrained Learning Problems [85.48853063302764]
機械学習システムでは、振る舞いを縮小する必要性がますます顕在化している。
これは、双対ロバスト性変数を満たすモデルの開発に向けた最近の進歩によって証明されている。
この結果から, 豊富なパラメトリゼーションは非次元的, 有限な学習問題を効果的に緩和することが示された。
論文 参考訳(メタデータ) (2024-03-18T14:55:45Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network [6.689964384669018]
我々は,Deep Q-Network(M$2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。
トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーなどのパラメータを更新する。
ジムゲームにおけるDouble DQN(Double DQN)を用いて,このフレームワークの有効性を検証する。
論文 参考訳(メタデータ) (2022-09-16T09:20:35Z) - Simultaneous Double Q-learning with Conservative Advantage Learning for
Actor-Critic Methods [133.85604983925282]
保守的アドバンテージ学習(SDQ-CAL)を用いた同時二重Q-ラーニングを提案する。
提案アルゴリズムはバイアスの少ない値推定を実現し,一連の連続制御ベンチマークタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-08T09:17:16Z) - Optimizing the Long-Term Behaviour of Deep Reinforcement Learning for
Pushing and Grasping [0.0]
長期報酬と政策を学習する2つのシステムの能力について検討する。
Ewerton et al.は、最もすぐれた行動のみを考慮に入れたエージェントを使用して、最高のパフォーマンスを得る。
提案手法により,大規模な割引要因でトレーニングされた場合,モデルが長期動作シーケンスを正確に予測できることを示す。
論文 参考訳(メタデータ) (2022-04-07T15:02:44Z) - Can Q-learning solve Multi Armed Bantids? [0.0]
現在の強化学習アルゴリズムでは,マルチアーマッド・バンディット問題を解くことができないことを示す。
これはポリシー間の差異が原因であり、2つの問題を引き起こす。
本稿では,アダプティブ・シンメトリ・リワード・ノーミング(ASRN)手法を提案する。
論文 参考訳(メタデータ) (2021-10-21T07:08:30Z) - An Improved Algorithm of Robot Path Planning in Complex Environment
Based on Double DQN [4.161177874372099]
本稿では、A*とRRT(Rapidly-Exploring Random Tree)を参考に、Double DQN(DDQN)の改良を提案する。
シミュレーション実験により, DDQNの有効性が検証された。
論文 参考訳(メタデータ) (2021-07-23T14:03:04Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - DisCor: Corrective Feedback in Reinforcement Learning via Distribution
Correction [96.90215318875859]
ブートストラップに基づくQ-ラーニングアルゴリズムは必ずしも修正フィードバックの恩恵を受けないことを示す。
本稿では,この最適分布に対する近似を計算し,トレーニングに使用する遷移の重み付けに使用する新しいアルゴリズムであるDisCorを提案する。
論文 参考訳(メタデータ) (2020-03-16T16:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。