論文の概要: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages
- arxiv url: http://arxiv.org/abs/2306.01460v4
- Date: Thu, 10 Oct 2024 11:16:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-11 14:28:09.187728
- Title: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages
- Title(参考訳): RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する
- Authors: Andrew Jesson, Chris Lu, Gunshi Gupta, Nicolas Beltran-Velez, Angelos Filos, Jakob Nicolaus Foerster, Yarin Gal,
- Abstract要約: 本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
Asynchronous Advantage Actor-Critic (A3C)アルゴリズムの3つの変更によって実装されている。
- 参考スコア(独自算出の注目度): 37.12048108122337
- License:
- Abstract: This paper proposes a step toward approximate Bayesian inference in on-policy actor-critic deep reinforcement learning. It is implemented through three changes to the Asynchronous Advantage Actor-Critic (A3C) algorithm: (1) applying a ReLU function to advantage estimates, (2) spectral normalization of actor-critic weights, and (3) incorporating \emph{dropout as a Bayesian approximation}. We prove under standard assumptions that restricting policy updates to positive advantages optimizes for value by maximizing a lower bound on the value function plus an additive term. We show that the additive term is bounded proportional to the Lipschitz constant of the value function, which offers theoretical grounding for spectral normalization of critic weights. Finally, our application of dropout corresponds to approximate Bayesian inference over both the actor and critic parameters, which enables \textit{adaptive state-aware} exploration around the modes of the actor via Thompson sampling. We demonstrate significant improvements for median and interquartile mean metrics over A3C, PPO, SAC, and TD3 on the MuJoCo continuous control benchmark and improvement over PPO in the challenging ProcGen generalization benchmark.
- Abstract(参考訳): 本稿では, アクター批判的深層強化学習におけるベイズ推定の近似に向けてのステップを提案する。
A3C(Asynchronous Advantage Actor-Critic)アルゴリズムは,(1)推定値にReLU関数を適用し,(2)アクター-クリティック重みのスペクトル正規化を行い,(3)ベイズ近似としてemph{dropoutを組み込んだアルゴリズムである。
正の優位性に対する政策更新を制限することは、値関数と加法項の下位境界を最大化することによって、値の最適化を最適化する、という標準的な仮定の下で証明する。
我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、批判重みのスペクトル正規化の理論的根拠を提供する。
最後に、ドロップアウトの応用はアクターパラメータと批評家パラメータの両方に対するベイズ推定とほぼ一致し、トンプソンサンプリングによりアクターのモードを探索することができる。
我々は,MuJoCo連続制御ベンチマークにおいて,A3C,PPO,SAC,TD3の中央値および中間値の平均値に対する顕著な改善と,ProcGen一般化ベンチマークにおけるPPOに対する改善を示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - PPO-Clip Attains Global Optimality: Towards Deeper Understandings of
Clipping [16.772442831559538]
我々は,PPO-Clip変異体を表計算と神経機能近似の両方で表わした最初の大域収束結果を確立した。
また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。
論文 参考訳(メタデータ) (2023-12-19T11:33:18Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。
線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文 参考訳(メタデータ) (2020-08-02T14:01:49Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。