Fugu-MT 論文翻訳(概要): ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages

論文の概要: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages

arxiv url: http://arxiv.org/abs/2306.01460v1
Date: Fri, 2 Jun 2023 11:37:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-05 15:26:32.039148
Title: ReLU to the Rescue: Improve Your On-Policy Actor-Critic with Positive Advantages
Title（参考訳）: RLU to the Rescue: ポジティブなアドバンテージでオンデマンドアクター批判を改善する
Authors: Andrew Jesson and Chris Lu and Gunshi Gupta and Angelos Filos and Jakob Nicolaus Foerster and Yarin Gal
Abstract要約: 本稿では,リアルタイムの深層強化学習(DRL)アルゴリズムの有効性を高める新しい手法を提案する。本手法は, 真値関数と定値関数の下位バウンドを最大化することと, 慎重探索のためのトンプソンサンプリングを組み込むことにより, 慎重な相互作用を2つの重要な方法で明確に統合する。
参考スコア（独自算出の注目度）: 29.67988620624368
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a novel method for enhancing the effectiveness of on-policy Deep Reinforcement Learning (DRL) algorithms. Current on-policy algorithms, such as Proximal Policy Optimization (PPO) and Asynchronous Advantage Actor-Critic (A3C), do not sufficiently account for cautious interaction with the environment. Our method addresses this gap by explicitly integrating cautious interaction in two critical ways: by maximizing a lower-bound on the true value function plus a constant, thereby promoting a \textit{conservative value estimation}, and by incorporating Thompson sampling for cautious exploration. These features are realized through three surprisingly simple modifications to the A3C algorithm: processing advantage estimates through a ReLU function, spectral normalization, and dropout. We provide theoretical proof that our algorithm maximizes the lower bound, which also grounds Regret Matching Policy Gradients (RMPG), a discrete-action on-policy method for multi-agent reinforcement learning. Our rigorous empirical evaluations across various benchmarks consistently demonstrates our approach's improved performance against existing on-policy algorithms. This research represents a substantial step towards more cautious and effective DRL algorithms, which has the potential to unlock application to complex, real-world problems.
Abstract（参考訳）: 本稿では,リアルタイムの深層強化学習(DRL)アルゴリズムの有効性を高める新しい手法を提案する。 ppo(proximal policy optimization)やa3c(asynchronous advantage actor-critic)といった現在のオンポリシーアルゴリズムは、環境との慎重な相互作用を十分に考慮していない。提案手法は,真の値関数と定数に対する下限を最大化することにより,<textit{conservative value estimation} の促進と,慎重な探索のためのトンプソンサンプリングの導入という2つの重要な方法で,慎重な相互作用を明示的に統合することで,このギャップに対処する。これらの機能は、3つの驚くほど単純なa3cアルゴリズムの変更によって実現されている: relu関数による有利な見積もりの処理、スペクトル正規化、およびドロップアウトである。提案アルゴリズムは,マルチエージェント強化学習のための離散的法則法であるRegret Matching Policy Gradients (RMPG) を基礎とした下界の最大化を理論的に証明する。様々なベンチマークにおける厳密な経験的評価は、既存のオンポリシーアルゴリズムに対する我々のアプローチの性能改善を一貫して実証している。この研究は、より慎重で効果的なDRLアルゴリズムへの大きな一歩であり、複雑な実世界の問題へのアプリケーションをアンロックする可能性がある。

関連論文リスト

Inverse Reinforcement Learning using Revealed Preferences and Passive Stochastic Optimization [15.878313629774269]
最初の2章では、逆強化学習(IRL)を、ミクロ経済学から明らかな好みのレンズを通して見る。第3章では適応勾配アルゴリズムについて研究している。
論文参考訳（メタデータ） (2025-07-06T13:56:02Z)
The Actor-Critic Update Order Matters for PPO in Federated Reinforcement Learning [10.727328530242461]
我々は、異なるクライアントからの批判者の分散を取り除くために、更新順序(まずアクタ、次に批判)を反転させるFedRACを提案する。実験結果から,提案アルゴリズムはより高い累積報酬を得て,より高速に5つの実験に収束することが示唆された。
論文参考訳（メタデータ） (2025-06-02T02:20:22Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
PPO-Clip Attains Global Optimality: Towards Deeper Understandings of Clipping [16.772442831559538]
我々は,PPO-Clip変異体を表計算と神経機能近似の両方で表わした最初の大域収束結果を確立した。また, クリッピング機構がPPO-Clip収束に及ぼす影響を初めて明らかにした。
論文参考訳（メタデータ） (2023-12-19T11:33:18Z)
Improving Deep Policy Gradients with Value Function Search [21.18135854494779]
本稿では、値近似の改善とDeep PGプリミティブへの影響の分析に焦点をあてる。本稿では,より優れた近似を求めるために,摂動値ネットワークの集団を用いた値関数探索を提案する。我々のフレームワークは、追加の環境相互作用、勾配計算、アンサンブルを必要としない。
論文参考訳（メタデータ） (2023-02-20T18:23:47Z)
Robust and Adaptive Temporal-Difference Learning Using An Ensemble of Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。 OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。 1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文参考訳（メタデータ） (2021-12-01T23:15:09Z)
Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。 DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文参考訳（メタデータ） (2021-02-23T18:56:13Z)
Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文参考訳（メタデータ） (2021-02-03T10:06:16Z)
Single-Timescale Actor-Critic Provably Finds Globally Optimal Policy [122.01837436087516]
我々は、強化学習アルゴリズムの最も一般的なファミリーの一つであるアクター批判のグローバル収束とグローバル最適性について研究する。線形関数近似を用いたシングルタイムスケールアクター批評家の収束率と大域的最適性を確立した。
論文参考訳（メタデータ） (2020-08-02T14:01:49Z)
Queueing Network Controls via Deep Reinforcement Learning [0.0]
待ち行列ネットワークのためのポリシ最適化アルゴリズムを開発した。このアルゴリズムは、文学における最先端よりも優れた制御ポリシーを一貫して生成する。 PPOアルゴリズムの成功の鍵は、相対値関数を推定するために3つの分散還元技術を使用することである。
論文参考訳（メタデータ） (2020-07-31T01:02:57Z)
Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文参考訳（メタデータ） (2020-01-09T02:27:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。