論文の概要: On the Convergence of Policy in Unregularized Policy Mirror Descent
- arxiv url: http://arxiv.org/abs/2205.08176v3
- Date: Sun, 2 Jun 2024 06:38:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 23:55:24.652215
- Title: On the Convergence of Policy in Unregularized Policy Mirror Descent
- Title(参考訳): 非正規化政策鏡の収束性について
- Authors: Dachao Lin, Zhihua Zhang,
- Abstract要約: 最近の有名な政策ミラー降下(PMD)における政策の収束分析を行う。
ブレグマン多元環の大きな体は、古典的ユークリッド距離のような最適ポリシーに有限段階収束を与えることができる。
- 参考スコア(独自算出の注目度): 28.25016646419217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this short note, we give the convergence analysis of the policy in the recent famous policy mirror descent (PMD). We mainly consider the unregularized setting following [11] with generalized Bregman divergence. The difference is that we directly give the convergence rates of policy under generalized Bregman divergence. Our results are inspired by the convergence of value function in previous works and are an extension study of policy mirror descent. Though some results have already appeared in previous work, we further discover a large body of Bregman divergences could give finite-step convergence to an optimal policy, such as the classical Euclidean distance.
- Abstract(参考訳): 本稿では、最近の有名な政策ミラー降下(PMD)における政策の収束分析について述べる。
主に、一般化されたブレグマン発散を伴う [11] に続く非正規化集合を考える。
違いは、一般化されたブレグマンの発散の下で、政策の収束率を直接与えることである。
この結果は,従来の研究における値関数の収束に着想を得たものであり,政策ミラー降下に関する拡張研究である。
以前の研究ではすでにいくつかの結果が出ているものの、ブレグマンの発散体が古典的ユークリッド距離のような最適ポリシーに有限段階収束する可能性があることをさらに発見する。
関連論文リスト
- Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
基本方針と最良$n$ポリシーのKL分散は、$log (n) - (n-1)/n.$と等しいことを示す。
KLの発散に対する新しい推定器を提案し、いくつかの例を通して厳密な近似を与えることを実証的に示す。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z) - On The Convergence Of Policy Iteration-Based Reinforcement Learning With
Monte Carlo Policy Evaluation [11.345796608258434]
このような政策反復スキームの最初の訪問バージョンは、政策改善ステップがルックアヘッドを使用する場合、最適方針に収束することを示す。
また,関数近似設定の拡張を行い,アルゴリズムが関数近似誤差内の最適ポリシに近く動作することを示す。
論文 参考訳(メタデータ) (2023-01-23T20:32:41Z) - On the Hidden Biases of Policy Mirror Ascent in Continuous Action Spaces [23.186300629667134]
重み付きパラメータ化の下でのポリシー勾配アルゴリズムの収束性について検討する。
我々の主要な理論的貢献は、このスキームが一定のステップとバッチサイズに収束することである。
論文 参考訳(メタデータ) (2022-01-28T18:54:30Z) - Greedification Operators for Policy Optimization: Investigating Forward
and Reverse KL Divergences [33.471102483095315]
パラメータ化ポリシとボルツマン分布のKL分散を作用値上で低減する際の近似グリード化について検討する。
逆KLは、より強力な政策改善保証を有するが、前方KLの削減は、より悪い政策をもたらす可能性があることを示す。
離散アクション設定やベンチマーク問題に有意な差は見られなかった。
論文 参考訳(メタデータ) (2021-07-17T17:09:18Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER [6.9478331974594045]
我々は、よく知られたPPOと最近導入されたRUDDERの収束性を示す。
本研究は, エピソード標本を用いたアクター批判的手法に有効であり, 学習中により欲求的になる方針を持つ。
論文 参考訳(メタデータ) (2020-12-02T18:47:06Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。