論文の概要: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages
- arxiv url: http://arxiv.org/abs/2306.01460v2
- Date: Mon, 12 Jun 2023 18:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 16:58:12.199901
- Title: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive
Advantages
- Title(参考訳): RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する
- Authors: Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and
Jakob Nicolaus Foerster and Yarin Gal
- Abstract要約: 本稿では,リアルタイムの深層強化学習(DRL)アルゴリズムの有効性を高める新しい手法を提案する。
A3Cアルゴリズムの驚くほど単純な3つの修正は、有効性の向上と、慎重な'DRLアルゴリズムの獲得に役立つ。
- 参考スコア(独自算出の注目度): 29.67988620624368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a novel method for enhancing the effectiveness of
on-policy Deep Reinforcement Learning (DRL) algorithms. Three surprisingly
simple modifications to the A3C algorithm: (1) processing advantage estimates
through a ReLU function, (2) spectral normalization, and (3) dropout, serve to
not only improve efficacy but also yield a ``cautious'' DRL algorithm. Where
on-policy algorithms such as Proximal Policy Optimization (PPO) and
Asynchronous Advantage Actor-Critic (A3C) do not explicitly account for
cautious interaction with the environment, our method integrates caution in two
critical ways: (1) by maximizing a lower bound on the value function plus a
constant, thereby promoting a \textit{conservative value estimation}, and (2)
by incorporating Thompson sampling for cautious exploration. In proving that
our algorithm maximizes the lower bound, we also ground Regret Matching Policy
Gradients (RMPG), a discrete-action on-policy method for multi-agent
reinforcement learning. Our rigorous empirical evaluations across various
benchmarks demonstrate our approach's improved performance against existing
on-policy algorithms. This research represents a substantial step towards
efficacious and cautious DRL algorithms, which are needed to unlock
applications to complex, real-world problems.
- Abstract(参考訳): 本稿では,オンライン深層強化学習(drl)アルゴリズムの有効性を高める新しい手法を提案する。
1) ReLU 関数による処理の利点推定、(2) スペクトル正規化、(3) ドロップアウトの3つの驚くほど単純な修正は、有効性を向上するだけでなく、「注意深い」 DRL アルゴリズムをもたらす。
ppo (proximal policy optimization) やa3c (asynchronous advantage actor-critic) といったオンポリシーアルゴリズムが環境との慎重な相互作用を明示的に考慮していない場合,(1)値関数と定数の上限を最大化することにより,<textit{conservative value estimation} を促進させ,(2)トンプソンサンプリングを統合して注意深い探索を行う。
また,アルゴリズムが下位境界を最大化することを証明するために,マルチエージェント強化学習のための離散的行動法であるRegret Matching Policy Gradients (RMPG) を基礎とした。
様々なベンチマークにおける厳密な経験的評価は、既存のオンポリシーアルゴリズムに対する我々のアプローチの性能向上を示している。
この研究は、複雑な実世界の問題に対してアプリケーションをアンロックするために必要な効率的かつ慎重なdrlアルゴリズムへの大きな一歩である。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - PPO-Clip Attains Global Optimality: Towards Deeper Understandings of
Clipping [16.772442831559538]
我々は,PPO-Clip変異体を表計算と神経機能近似の両方で表わした最初の大域収束結果を確立した。
また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。
論文 参考訳(メタデータ) (2023-12-19T11:33:18Z) - Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。
本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。
我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文 参考訳(メタデータ) (2023-02-20T18:23:47Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。
このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。
PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文 参考訳(メタデータ) (2020-07-31T01:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。