Fugu-MT 論文翻訳(概要): Off-Policy Actor-Critic with Emphatic Weightings

論文の概要: Off-Policy Actor-Critic with Emphatic Weightings

arxiv url: http://arxiv.org/abs/2111.08172v1
Date: Tue, 16 Nov 2021 01:18:16 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-17 14:58:44.900717
Title: Off-Policy Actor-Critic with Emphatic Weightings
Title（参考訳）: 強調重み付きオフポリシィアクター臨界
Authors: Eric Graves, Ehsan Imani, Raksha Kumaraswamy, Martha White
Abstract要約: 複数の目的が存在することや、明示的な非政治政策勾配定理が欠如していることから、オフ政治設定はより明確でない。我々はこれらの目的を一つの非政治的目的に統一し、この統一目的に対する政策勾配定理を提供する。 Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムにおいて、勾配を近似する複数の戦略を示す。
参考スコア（独自算出の注目度）: 37.14464127897097
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A variety of theoretically-sound policy gradient algorithms exist for the on-policy setting due to the policy gradient theorem, which provides a simplified form for the gradient. The off-policy setting, however, has been less clear due to the existence of multiple objectives and the lack of an explicit off-policy policy gradient theorem. In this work, we unify these objectives into one off-policy objective, and provide a policy gradient theorem for this unified objective. The derivation involves emphatic weightings and interest functions. We show multiple strategies to approximate the gradients, in an algorithm called Actor Critic with Emphatic weightings (ACE). We prove in a counterexample that previous (semi-gradient) off-policy actor-critic methods--particularly OffPAC and DPG--converge to the wrong solution whereas ACE finds the optimal solution. We also highlight why these semi-gradient approaches can still perform well in practice, suggesting strategies for variance reduction in ACE. We empirically study several variants of ACE on two classic control environments and an image-based environment designed to illustrate the tradeoffs made by each gradient approximation. We find that by approximating the emphatic weightings directly, ACE performs as well as or better than OffPAC in all settings tested.
Abstract（参考訳）: 政策勾配定理(policy gradient theorem)により、オンポリシー設定のために様々な理論上音質の政策勾配アルゴリズムが存在する。しかし、オフ・ポリシー・セッティングは、複数の目的の存在と明確なオフ・ポリシー・ポリシーの勾配定理の欠如により、明確ではない。本研究では,これらの目的を一つのオフ・ポリシー目標に統一し,この統一目的に対して政策勾配定理を提供する。導出には強調重み付けと関心関数が含まれる。 Actor Critic with Emphatic weightings (ACE) と呼ばれるアルゴリズムで、勾配を近似する複数の戦略を示す。我々は,前回(半次)のオフ・ポリティカル・アクタ-クリティック法-特にオフパック法とdpg-法-が間違った解に収束したことを反例で証明する。これらの半次アプローチが実際にうまく機能する理由についても強調し,aceの分散削減戦略を提案する。我々は,2つの古典的な制御環境と,各勾配近似によるトレードオフを説明するイメージベース環境において,aceのいくつかの変種を実験的に検討した。強調重み付けを直接近似することにより、テストされたすべての設定において、ACEはOFPACと同等以上の性能を発揮する。

関連論文リスト

Imitate Optimal Policy: Prevail and Induce Action Collapse in Policy Gradient [61.440209025381016]
ポリシー強化学習は、ディープニューラルネットワーク(DNN)を使用して、アクション選択層における可能性を計算するために使用される特徴表現の共有バックボーンを学習する。特定の制約下では、我々はAction Collapse (AC)と呼ばれる神経崩壊に似た構造が出現する。本稿では,動作選択層として合成ETFを付加した行動崩壊ポリシー勾配(ACPG)法を提案する。
論文参考訳（メタデータ） (2025-09-02T18:33:11Z)
Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文参考訳（メタデータ） (2025-07-06T14:40:05Z)
Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
Analysis of On-policy Policy Gradient Methods under the Distribution Mismatch [5.684512532326261]
配当ミスマッチが政策勾配法に与える影響を解析する。本研究は, 政策勾配法の堅牢性に関する新たな知見と, 理論的基礎と実践的実装のギャップについて考察した。
論文参考訳（メタデータ） (2025-03-28T08:52:41Z)
Residual Policy Gradient: A Reward View of KL-regularized Objective [48.39829592175419]
強化学習と模倣学習は多くの領域で広く成功しているが、実世界の展開には制約が残っている。ポリシーのカスタマイズは、その固有の特性を維持しつつ、新しいタスク固有の要件を満たしながら、事前のポリシーに適応することを目的として導入された。ポリシーのカスタマイズに対する原則的なアプローチはResidual Q-Learning (RQL)であり、マルコフ決定プロセス(MDP)として問題を定式化し、価値に基づく学習アルゴリズムのファミリを導出する。 RQLをポリシーグラデーションメソッドに拡張し、グラデーションベースのRL設定でのポリシーカスタマイズを可能にするResidual Policy Gradient(RPG)を導入する。
論文参考訳（メタデータ） (2025-03-14T02:30:13Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning [0.46040036610482665]
累積プロスペクト理論(CPT)は、経験的証拠によって支持された人間に基づく意思決定のためのより良いモデルを提供するために開発された。数年前、CPTは強化学習(Reinforcement Learning, RL)と組み合わせて、CPTポリシー最適化問題を定式化した。政策勾配アルゴリズムは, 既存のゼロ次アルゴリズムと比較して, 同じ問題を解くために, より大きな状態空間に拡張可能であることを示す。
論文参考訳（メタデータ） (2024-10-03T15:45:39Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Mollification Effects of Policy Gradient Methods [16.617678267301702]
政策勾配法が非滑らかな最適化環境をどう動員するかを理解するための厳密な枠組みを開発する。政策勾配法と逆熱方程式の解法との等価性を実証する。我々は、この制限と調和解析における不確実性原理の関連性を、RLにおける政策による探索の効果を理解するために作成する。
論文参考訳（メタデータ） (2024-05-28T05:05:33Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Gradient Informed Proximal Policy Optimization [35.22712034665224]
本稿では,PPOアルゴリズムと差別化可能な環境からの解析的勾配を統合した新しいポリシー学習手法を提案する。アルファ値を適応的に修正することにより、学習中の分析的方針勾配の影響を効果的に管理できる。提案手法は, 関数最適化, 物理シミュレーション, 交通制御環境など, 様々なシナリオにおいて, ベースラインアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-12-14T07:50:21Z)
Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文参考訳（メタデータ） (2022-06-10T21:09:44Z)
Sigmoidally Preconditioned Off-policy Learning:a new exploration method for reinforcement learning [14.991913317341417]
政治以外のアクター・クリティカルアーキテクチャに着目し,P3O(Preconditioned Proximal Policy Optimization)と呼ばれる新しい手法を提案する。 P3Oは、保守政策反復(CPI)目標に事前条件を適用することにより、重要度サンプリングの高分散を制御できる。その結果,P3Oはトレーニング過程においてPPOよりもCPI目標を最大化できることがわかった。
論文参考訳（メタデータ） (2022-05-20T09:38:04Z)
Characterizing the Gap Between Actor-Critic and Policy Gradient [47.77939973964009]
本稿では,AC目標/勾配の正確な調整を同定することにより,AC法とPG法のギャップを説明する。我々は,ACとPGの補正を推定する実用的なアルゴリズムであるResidual Actor-CriticとStackelberg Actor-Criticを開発した。
論文参考訳（メタデータ） (2021-06-13T06:35:42Z)
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients [51.749831824106046]
本稿では,オンライン政策グラデーション手法のサンプル非効率性に効果的かつ効率的な手法として,セミ・オン・ポリティ(SOP)トレーニングを導入する。提案手法は,様々なSMACタスクにおいて,最先端の値ベース手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2021-04-27T19:37:01Z)
On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。 3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文参考訳（メタデータ） (2021-02-20T05:51:28Z)
On Linear Convergence of Policy Gradient Methods for Finite MDPs [8.00114449574708]
最も簡単な設定の1つにおいて、ポリシー勾配法の有限時間解析を再検討する。政策勾配法の多くの変種が大きなステップサイズで成功し、線形収束率を得ることを示す。
論文参考訳（メタデータ） (2020-07-21T22:35:37Z)
Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文参考訳（メタデータ） (2020-02-10T04:23:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。