論文の概要: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages
- arxiv url: http://arxiv.org/abs/2306.01460v3
- Date: Fri, 24 Nov 2023 22:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:43:15.998594
- Title: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages
- Title(参考訳): RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する
- Authors: Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and
Jakob Nicolaus Foerster and Yarin Gal
- Abstract要約: 本稿では, アクター批判的深層強化学習におけるベイズ近似への効果的かつ実践的なステップを紹介する。
我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、これは批判重みのスペクトル正規化の理論的基礎を提供する。
我々は,MuJoCo連続制御ベンチマークにおいて,PPO,SAC,TD3の中央値および中間値の平均値に対する有意な改善を示した。
- 参考スコア(独自算出の注目度): 41.30585319670119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces an effective and practical step toward approximate
Bayesian inference in on-policy actor-critic deep reinforcement learning. This
step manifests as three simple modifications to the Asynchronous Advantage
Actor-Critic (A3C) algorithm: (1) applying a ReLU function to advantage
estimates, (2) spectral normalization of actor-critic weights, and (3)
incorporating dropout as a Bayesian approximation. We prove under standard
assumptions that restricting policy updates to positive advantages optimizes
for value by maximizing a lower bound on the value function plus an additive
term. We show that the additive term is bounded proportional to the Lipschitz
constant of the value function, which offers theoretical grounding for spectral
normalization of critic weights. Finally, our application of dropout
corresponds to approximate Bayesian inference over both the actor and critic
parameters, which enables prudent state-aware exploration around the modes of
the actor via Thompson sampling. Extensive empirical evaluations on diverse
benchmarks reveal the superior performance of our approach compared to existing
on- and off-policy algorithms. We demonstrate significant improvements for
median and interquartile mean metrics over PPO, SAC, and TD3 on the MuJoCo
continuous control benchmark. Moreover, we see improvement over PPO in the
challenging ProcGen generalization benchmark.
- Abstract(参考訳): 本稿では, アクター批判的深層強化学習におけるベイズ近似への効果的かつ実践的なステップを紹介する。
このステップは,(1)推定値にReLU関数を適用すること,(2)アクター-クリティック重みのスペクトル正規化,(3)ベイズ近似としてドロップアウトを取り入れること,の3つの単純な修正として現れる。
我々は、政策更新を肯定的な利点に限定する標準的な仮定の下で、価値関数と付加項の上限を最大化することで価値を最適化する。
我々は、加法項が値関数のリプシッツ定数に比例して有界であることを示し、批判重みのスペクトル正規化の理論的根拠を提供する。
最後に、ドロップアウトの応用は、アクターパラメータと批評家パラメータの両方に対する近似ベイズ推論に対応し、トンプソンサンプリングによるアクターのモード周辺の慎重な状態認識探索を可能にする。
様々なベンチマークにおける広範な経験的評価は、既存のオン・オフ・ポリシー・アルゴリズムと比較して、我々のアプローチの優れた性能を示している。
mujoco連続制御ベンチマークにおいて,ppo,sac,td3に対する中央値および四分位平均指標の大幅な改善を示す。
さらに、ProcGenの一般化ベンチマークでは、PPOよりも改善されている。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - PPO-Clip Attains Global Optimality: Towards Deeper Understandings of
Clipping [16.772442831559538]
我々は,PPO-Clip変異体を表計算と神経機能近似の両方で表わした最初の大域収束結果を確立した。
また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。
論文 参考訳(メタデータ) (2023-12-19T11:33:18Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。