論文の概要: Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay
- arxiv url: http://arxiv.org/abs/2111.01865v1
- Date: Tue, 2 Nov 2021 19:51:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 12:46:10.477805
- Title: Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms
via Batch Prioritized Experience Replay
- Title(参考訳): Batch Prioritized Experience ReplayによるDeep Deterministic Policy Gradient Algorithmのオフポリティ補正
- Authors: Dogan C. Cicek, Enes Duran, Baturay Saglam, Furkan B. Mutlu, Suleyman
S. Kozat
- Abstract要約: そこで我々は, KL Divergence を用いた新しいアルゴリズム Batch Prioritizing Experience Replay を開発した。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The experience replay mechanism allows agents to use the experiences multiple
times. In prior works, the sampling probability of the transitions was adjusted
according to their importance. Reassigning sampling probabilities for every
transition in the replay buffer after each iteration is highly inefficient.
Therefore, experience replay prioritization algorithms recalculate the
significance of a transition when the corresponding transition is sampled to
gain computational efficiency. However, the importance level of the transitions
changes dynamically as the policy and the value function of the agent are
updated. In addition, experience replay stores the transitions are generated by
the previous policies of the agent that may significantly deviate from the most
recent policy of the agent. Higher deviation from the most recent policy of the
agent leads to more off-policy updates, which is detrimental for the agent. In
this paper, we develop a novel algorithm, Batch Prioritizing Experience Replay
via KL Divergence (KLPER), which prioritizes batch of transitions rather than
directly prioritizing each transition. Moreover, to reduce the off-policyness
of the updates, our algorithm selects one batch among a certain number of
batches and forces the agent to learn through the batch that is most likely
generated by the most recent policy of the agent. We combine our algorithm with
Deep Deterministic Policy Gradient and Twin Delayed Deep Deterministic Policy
Gradient and evaluate it on various continuous control tasks. KLPER provides
promising improvements for deep deterministic continuous control algorithms in
terms of sample efficiency, final performance, and stability of the policy
during the training.
- Abstract(参考訳): experience replayメカニズムにより、エージェントは複数の体験を使うことができる。
先行研究では,遷移のサンプリング確率は,その重要性に応じて調整された。
繰り返し後のリプレイバッファの遷移毎にサンプリング確率を再割り当てすることは、非常に非効率である。
したがって、経験リプレイ優先順位付けアルゴリズムは、対応する遷移をサンプリングして計算効率を得る場合の遷移の意義を再計算する。
しかし、ポリシーとエージェントの価値関数が更新されると、遷移の重要性レベルは動的に変化する。
さらに、経験リプレイストアでは、エージェントの最新のポリシーから著しく逸脱する可能性があるエージェントの以前のポリシーによって遷移が生成される。
エージェントの最近のポリシーからの逸脱は、エージェントにとって有害な、よりオフ・ポリティカルなアップデートにつながる。
本稿では,各遷移を直接優先するのではなく,遷移のバッチを優先するkl divergence (klper) による経験リプレイをバッチ優先化する新しいアルゴリズムを開発した。
さらに,更新のオフポリシー性を低減するために,特定のバッチのうち1つのバッチを選択し,エージェントの最新のポリシーが生成する可能性のあるバッチを通じてエージェントに学習を強いるアルゴリズムを提案する。
我々は,このアルゴリズムをDeep Deterministic Policy GradientとTwin Delayed Deep Deterministic Policy Gradientと組み合わせ,様々な連続制御タスクで評価する。
KLPERは、サンプル効率、最終的なパフォーマンス、トレーニング中のポリシーの安定性の観点から、深い決定論的連続制御アルゴリズムに有望な改善を提供する。
関連論文リスト
- CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms [5.331052581441265]
我々は,他のすべての経験の公平性を考慮しつつ,記憶された経験をサンプリングする新しいアルゴリズム,Corrected Uniform Experience (CUER) を開発した。
CUERは、トレーニング中のポリシーのサンプル効率、最終的なパフォーマンス、安定性の観点から、非政治的な継続的制御アルゴリズムに有望な改善を提供する。
論文 参考訳(メタデータ) (2024-06-13T12:03:40Z) - MAC-PO: Multi-Agent Experience Replay via Collective Priority
Optimization [12.473095790918347]
マルチエージェント問題に対する最適優先体験再生を定式化する名前を提案する。
結果として生じた政策の後悔を最小限にすることで、現在の政策と明確な最適政策とのギャップを狭めることができる。
論文 参考訳(メタデータ) (2023-02-21T03:11:21Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Plan Better Amid Conservatism: Offline Multi-Agent Reinforcement
Learning with Actor Rectification [74.10976684469435]
オフライン強化学習(RL)アルゴリズムは、直接マルチエージェント設定に転送することができる。
本稿では,この重要な課題に対処するために,Actor Rectification (OMAR) を用いたオフラインマルチエージェント RL を提案する。
OMARはマルチエージェント連続制御ベンチマークにおける最先端性能と強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2021-11-22T13:27:42Z) - Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with
On-Policy Experience [9.06635747612495]
ソフト・アクター・クリティカル(Soft Actor-Critic, SAC)は、アクター・アクター・アクターの強化学習アルゴリズムである。
SACは、期待されるリターンとエントロピーの間のトレードオフを最大化することでポリシーを訓練する。
一連の連続制御ベンチマークタスクで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2021-09-24T06:46:28Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。