論文の概要: Off-Policy Actor-Critic with Emphatic Weightings
- arxiv url: http://arxiv.org/abs/2111.08172v1
- Date: Tue, 16 Nov 2021 01:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 14:58:44.900717
- Title: Off-Policy Actor-Critic with Emphatic Weightings
- Title(参考訳): 強調重み付きオフポリシィアクター臨界
- Authors: Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White
- Abstract要約: 複数の目的が存在することや、明示的な非政治政策勾配定理が欠如していることから、オフ政治設定はより明確でない。
我々はこれらの目的を一つの非政治的目的に統一し、この統一目的に対する政策勾配定理を提供する。
Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムにおいて、勾配を近似する複数の戦略を示す。
- 参考スコア(独自算出の注目度): 37.14464127897097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A variety of theoretically-sound policy gradient algorithms exist for the
on-policy setting due to the policy gradient theorem, which provides a
simplified form for the gradient. The off-policy setting, however, has been
less clear due to the existence of multiple objectives and the lack of an
explicit off-policy policy gradient theorem. In this work, we unify these
objectives into one off-policy objective, and provide a policy gradient theorem
for this unified objective. The derivation involves emphatic weightings and
interest functions. We show multiple strategies to approximate the gradients,
in an algorithm called Actor Critic with Emphatic weightings (ACE). We prove in
a counterexample that previous (semi-gradient) off-policy actor-critic
methods--particularly OffPAC and DPG--converge to the wrong solution whereas
ACE finds the optimal solution. We also highlight why these semi-gradient
approaches can still perform well in practice, suggesting strategies for
variance reduction in ACE. We empirically study several variants of ACE on two
classic control environments and an image-based environment designed to
illustrate the tradeoffs made by each gradient approximation. We find that by
approximating the emphatic weightings directly, ACE performs as well as or
better than OffPAC in all settings tested.
- Abstract(参考訳): 政策勾配定理(policy gradient theorem)により、オンポリシー設定のために様々な理論上音質の政策勾配アルゴリズムが存在する。
しかし、オフ・ポリシー・セッティングは、複数の目的の存在と明確なオフ・ポリシー・ポリシーの勾配定理の欠如により、明確ではない。
本研究では,これらの目的を一つのオフ・ポリシー目標に統一し,この統一目的に対して政策勾配定理を提供する。
導出には強調重み付けと関心関数が含まれる。
Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムで、勾配を近似する複数の戦略を示す。
我々は,前回(半次)のオフ・ポリティカル・アクタ-クリティック法-特にオフパック法とdpg-法-が間違った解に収束したことを反例で証明する。
これらの半次アプローチが実際にうまく機能する理由についても強調し,aceの分散削減戦略を提案する。
我々は,2つの古典的な制御環境と,各勾配近似によるトレードオフを説明するイメージベース環境において,aceのいくつかの変種を実験的に検討した。
強調重み付けを直接近似することにより、テストされたすべての設定において、ACEはOFPACと同等以上の性能を発揮する。
関連論文リスト
- Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。
アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。
提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-12-14T07:50:21Z) - Optimization Landscape of Policy Gradient Methods for Discrete-time
Static Output Feedback [22.21598324895312]
本稿では,静的な出力フィードバック制御に適用した場合に,ポリシー勾配法に固有の最適化環境を解析する。
3つの政策勾配法に対する定常点への収束(およびほぼ次元自由率)に関する新しい知見を導出する。
我々は,バニラポリシー勾配法が,そのようなミニマに近づいた場合,局所最小マに対して線形収束を示すことを示す。
論文 参考訳(メタデータ) (2023-10-29T14:25:57Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Sigmoidally Preconditioned Off-policy Learning:a new exploration method
for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。
P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。
その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文 参考訳(メタデータ) (2022-05-20T09:38:04Z) - Characterizing the Gap Between Actor-Critic and Policy Gradient [47.77939973964009]
本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。
我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
論文 参考訳(メタデータ) (2021-06-13T06:35:42Z) - Semi-On-Policy Training for Sample Efficient Multi-Agent Policy
Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。
提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-04-27T19:37:01Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。
政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文 参考訳(メタデータ) (2020-07-21T22:35:37Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。