論文の概要: OPAC: Opportunistic Actor-Critic
- arxiv url: http://arxiv.org/abs/2012.06555v1
- Date: Fri, 11 Dec 2020 18:33:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:11:04.459463
- Title: OPAC: Opportunistic Actor-Critic
- Title(参考訳): OPAC:機会主義的アクター批判
- Authors: Srinjoy Roy, Saptam Bakshi, Tamal Maharaj
- Abstract要約: Opportunistic Actor-Critic (OPAC) は、より優れた探索ポリシーとより分散の少ないモデルのないディープRLアルゴリズムである。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法でポリシーを最適化することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Actor-critic methods, a type of model-free reinforcement learning (RL), have
achieved state-of-the-art performances in many real-world domains in continuous
control. Despite their success, the wide-scale deployment of these models is
still a far cry. The main problems in these actor-critic methods are
inefficient exploration and sub-optimal policies. Soft Actor-Critic (SAC) and
Twin Delayed Deep Deterministic Policy Gradient (TD3), two cutting edge such
algorithms, suffer from these issues. SAC effectively addressed the problems of
sample complexity and convergence brittleness to hyper-parameters and thus
outperformed all state-of-the-art algorithms including TD3 in harder tasks,
whereas TD3 produced moderate results in all environments. SAC suffers from
inefficient exploration owing to the Gaussian nature of its policy which causes
borderline performance in simpler tasks. In this paper, we introduce
Opportunistic Actor-Critic (OPAC), a novel model-free deep RL algorithm that
employs better exploration policy and lesser variance. OPAC combines some of
the most powerful features of TD3 and SAC and aims to optimize a stochastic
policy in an off-policy way. For calculating the target Q-values, instead of
two critics, OPAC uses three critics and based on the environment complexity,
opportunistically chooses how the target Q-value is computed from the critics'
evaluation. We have systematically evaluated the algorithm on MuJoCo
environments where it achieves state-of-the-art performance and outperforms or
at least equals the performance of TD3 and SAC.
- Abstract(参考訳): モデルフリー強化学習(RL)の一種であるアクタークリティカル法は、連続制御において多くの実世界の領域で最先端の性能を達成した。
彼らの成功にもかかわらず、これらのモデルの広範囲な展開はいまだに未解決だ。
これらのアクタ-クリティック手法の主な問題は、非効率な探索とサブオプティマポリシーである。
soft actor-critic (sac) と twin delay deep deterministic policy gradient (td3) の2つのアルゴリズムはこれらの問題に苦しんでいる。
SACは、サンプルの複雑さと収束脆性の問題をハイパーパラメータに効果的に解決し、TD3を含む最先端のアルゴリズムをハードタスクで上回り、TD3は全ての環境で適度な結果を生み出した。
SACは、より単純な作業において境界線性能を引き起こす政策のガウス的性質のため、非効率な探索に苦しむ。
本稿では,より優れた探索ポリシとより分散度の低いモデルフリーなディープRLアルゴリズムであるOPACを紹介する。
OPACは、TD3とSACの最も強力な機能を組み合わせて、政治以外の方法で確率的ポリシーを最適化することを目指している。
対象のQ値を計算するために、OPACは2つの批評家の代わりに3つの批評家を使用し、環境の複雑さに基づいて、対象のQ値がどのように計算されるかを選択する。
我々は,TD3 と SAC の性能に比較して,最先端の性能と性能を達成できる MuJoCo 環境上で,アルゴリズムを体系的に評価した。
関連論文リスト
- Distributional Soft Actor-Critic with Three Refinements [47.46661939652862]
強化学習(Reinforcement Learning, RL)は、複雑な意思決定と制御タスクの解決に顕著な成功を収めた。
多くのモデルなしRLアルゴリズムは、不正確な値推定による性能劣化を経験する。
本稿では,これらの制限を克服し,Q値推定精度を向上させるために,DSACv1に3つの重要な改良点を導入する。
論文 参考訳(メタデータ) (2023-10-09T16:52:48Z) - Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous
Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。
SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。
提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-20T08:32:11Z) - PAC-Bayesian Soft Actor-Critic Learning [9.752336113724928]
アクター批判アルゴリズムは、強化学習(RL)と政策評価と2つの関数近似器による改善という2つの目標に対処する。
我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を初めて採用することによって対処する。
論文 参考訳(メタデータ) (2023-01-30T10:44:15Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z) - Zeroth-Order Actor-Critic: An Evolutionary Framework for Sequential Decision Problems [17.713459311502636]
逐次決定問題(SDP)を解決するため,ZOAC(Zeroth-Order Actor-Critic)の進化的枠組みを提案する。
ZOACはパラメータ空間を段階的に探索し、理論上はゼロ階ポリシー勾配を導出する。
この問題を静的な最適化として扱うEAを著しく上回り、一階情報なしでも勾配ベースのRL法の性能に匹敵する。
論文 参考訳(メタデータ) (2022-01-29T07:09:03Z) - Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality [131.45028999325797]
ディスカウント型MDPのための2倍堅牢なオフポリチックAC(DR-Off-PAC)を開発した。
DR-Off-PACは、俳優と批評家の両方が一定のステップで同時に更新される単一のタイムスケール構造を採用しています。
有限時間収束速度を研究し, dr-off-pac のサンプル複雑性を特徴とし, $epsilon$-accurate optimal policy を得る。
論文 参考訳(メタデータ) (2021-02-23T18:56:13Z) - OffCon$^3$: What is state of the art anyway? [20.59974596074688]
モデルフリー連続制御タスクに対する2つの一般的なアプローチは、SACとTD3である。
TD3 は DPG から派生したもので、決定論的ポリシーを用いて値関数に沿ってポリシー上昇を行う。
OffCon$3$は、両方のアルゴリズムの最先端バージョンを特徴とするコードベースである。
論文 参考訳(メタデータ) (2021-01-27T11:45:08Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。