論文の概要: On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation
- arxiv url: http://arxiv.org/abs/2509.18822v1
- Date: Tue, 23 Sep 2025 09:11:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.788783
- Title: On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation
- Title(参考訳): 時間差評価による政策鏡の収束性について
- Authors: Jiacai Liu, Wenye Li, Ke Wei,
- Abstract要約: 政策ミラー降下(PMD)は、強化学習における一般的な政策最適化フレームワークである。
時間差評価(TD-PMD)を用いた政策ミラー降下の検討
- 参考スコア(独自算出の注目度): 5.185426731431962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Policy mirror descent (PMD) is a general policy optimization framework in reinforcement learning, which can cover a wide range of typical policy optimization methods by specifying different mirror maps. Existing analysis of PMD requires exact or approximate evaluation (for example unbiased estimation via Monte Carlo simulation) of action values solely based on policy. In this paper, we consider policy mirror descent with temporal difference evaluation (TD-PMD). It is shown that, given the access to exact policy evaluations, the dimension-free $O(1/T)$ sublinear convergence still holds for TD-PMD with any constant step size and any initialization. In order to achieve this result, new monotonicity and shift invariance arguments have been developed. The dimension free $\gamma$-rate linear convergence of TD-PMD is also established provided the step size is selected adaptively. For the two common instances of TD-PMD (i.e., TD-PQA and TD-NPG), it is further shown that they enjoy the convergence in the policy domain. Additionally, we investigate TD-PMD in the inexact setting and give the sample complexity for it to achieve the last iterate $\varepsilon$-optimality under a generative model, which improves the last iterate sample complexity for PMD over the dependence on $1/(1-\gamma)$.
- Abstract(参考訳): 政策ミラー降下(PMD)は、強化学習における一般的な政策最適化フレームワークであり、異なるミラーマップを指定することで、幅広い典型的な政策最適化手法をカバーすることができる。
既存のPMDの分析では、政策のみに基づく行動値の正確なあるいは近似的な評価(例えばモンテカルロシミュレーションによる不偏推定)が必要である。
本稿では、時間差評価(TD-PMD)によるポリシーミラー降下について考察する。
正確な政策評価へのアクセスを考えると、次元自由な$O(1/T)$ sublinear convergence は TD-PMD に対して一定のステップサイズと初期化を保ったままである。
この結果を達成するために、新しい単調性やシフト不変の議論が開発された。
また、ステップサイズが適応的に選択された場合、TD-PMDの次元$\gamma$-rate線型収束も確立される。
TD-PMDの2つの一般的な例(TD-PQAとTD-NPG)について、それらがポリシー領域の収束を楽しむことがさらに示されている。
さらに,TD-PMDを不確定な条件で検討し,1/(1-\gamma)$に対する依存よりもPSDの最終反復検体複雑性を改善するため,最終反復検体$\varepsilon$-optimalityを生成モデルで達成するためのサンプル複雑性を与える。
関連論文リスト
- Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Policy Mirror Descent with Lookahead [0.46040036610482665]
Policy Mirror Descent (PMD) はソフトポリシー 正規化された1段階の欲求政策改善を実装するアルゴリズム。
我々は,多段階の欲求政策改善を取り入れた新しいPMDアルゴリズムである$h$-PMDを提案する。
我々は, 次元自由な$gammah$-linearコンバージェンスレートを, 多段階グリーディポリシの計算により, $h$-PMDがより高速な次元自由な$gammah$-linearコンバージェンスレートを享受できることを示す。
論文 参考訳(メタデータ) (2024-03-21T06:10:51Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Homotopic Policy Mirror Descent: Policy Convergence, Implicit
Regularization, and Improved Sample Complexity [40.2022466644885]
有限状態と作用空間を持つ割引・無限水平型MDPを解くホモトピーポリシーミラー降下法(HPMD)法。
政策勾配法に関する文献では, 新たな3つの特性が報告されている。
論文 参考訳(メタデータ) (2022-01-24T04:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。