論文の概要: Off-Policy Actor-Critic with Emphatic Weightings
- arxiv url: http://arxiv.org/abs/2111.08172v3
- Date: Thu, 13 Apr 2023 20:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 17:21:01.440203
- Title: Off-Policy Actor-Critic with Emphatic Weightings
- Title(参考訳): 強調重み付きオフポリシィアクター臨界
- Authors: Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White
- Abstract要約: 複数の目的が存在することや、明示的な非政治政策勾配定理が欠如していることから、オフ政治設定はより明確でない。
本研究では、これらの目的を政治以外の目的に統一し、この統一目的に対する政策勾配定理を提供する。
Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムにおいて、勾配を近似する複数の戦略を示す。
- 参考スコア(独自算出の注目度): 27.31795386676574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of theoretically-sound policy gradient algorithms exist for the
on-policy setting due to the policy gradient theorem, which provides a
simplified form for the gradient. The off-policy setting, however, has been
less clear due to the existence of multiple objectives and the lack of an
explicit off-policy policy gradient theorem. In this work, we unify these
objectives into one off-policy objective, and provide a policy gradient theorem
for this unified objective. The derivation involves emphatic weightings and
interest functions. We show multiple strategies to approximate the gradients,
in an algorithm called Actor Critic with Emphatic weightings (ACE). We prove in
a counterexample that previous (semi-gradient) off-policy actor-critic
methods--particularly Off-Policy Actor-Critic (OffPAC) and Deterministic Policy
Gradient (DPG)--converge to the wrong solution whereas ACE finds the optimal
solution. We also highlight why these semi-gradient approaches can still
perform well in practice, suggesting strategies for variance reduction in ACE.
We empirically study several variants of ACE on two classic control
environments and an image-based environment designed to illustrate the
tradeoffs made by each gradient approximation. We find that by approximating
the emphatic weightings directly, ACE performs as well as or better than OffPAC
in all settings tested.
- Abstract(参考訳): 政策勾配定理(policy gradient theorem)により、オンポリシー設定のために様々な理論上音質の政策勾配アルゴリズムが存在する。
しかし、オフ・ポリシー・セッティングは、複数の目的の存在と明確なオフ・ポリシー・ポリシーの勾配定理の欠如により、明確ではない。
本研究では,これらの目的を一つのオフ・ポリシー目標に統一し,この統一目的に対して政策勾配定理を提供する。
導出には強調重み付けと関心関数が含まれる。
Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムで、勾配を近似する複数の戦略を示す。
我々は,前回(半次)のオフ・ポリティカル・アクタ-クリティック手法-特にオフ・ポリティカル・アクタ-クリティック(オフパック)と決定論的ポリシー勾配(dpg)--が間違った解に収束し,aceが最適解を見つけることを反例で証明する。
これらの半次アプローチが実際にうまく機能する理由についても強調し,aceの分散削減戦略を提案する。
我々は,2つの古典的な制御環境と,各勾配近似によるトレードオフを説明するイメージベース環境において,aceのいくつかの変種を実験的に検討した。
強調重み付けを直接近似することにより、テストされたすべての設定において、ACEはOFPACと同等以上の性能を発揮する。
関連論文リスト
- Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。
数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。
政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文 参考訳(メタデータ) (2024-10-03T15:45:39Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。
政策勾配法と逆熱方程式の解法との等価性を実証する。
我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文 参考訳(メタデータ) (2024-05-28T05:05:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Characterizing the Gap Between Actor-Critic and Policy Gradient [47.77939973964009]
本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。
我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
論文 参考訳(メタデータ) (2021-06-13T06:35:42Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。