Fugu-MT 論文翻訳(概要): Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

論文の概要: Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework

arxiv url: http://arxiv.org/abs/2605.10671v1
Date: Mon, 11 May 2026 14:53:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:50.912416
Title: Natural Policy Gradient as Doubly Smoothed Policy Iteration: A Bellman-Operator Framework
Title（参考訳）: 二重スムーズな政策イテレーションとしての自然政策のグラディエント:ベルマン・オペレーター・フレームワーク
Authors: Phalguni Nanda, Zaiwei Chen,
Abstract要約: 自然政策勾配は、スムーズで平均化された政策反復形式として正確な定式化が認められることを示す。本稿では,従来のQ$-関数の重み付き平均値に正規化グリーディステップを適用することで,各ポリシが得られたベルマン演算フレームワークである2つのスムーズなポリシー反復(DSPI)を紹介する。
参考スコア（独自算出の注目度）: 3.950802208390739
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we show that natural policy gradient, a core algorithm in reinforcement learning, admits an exact formulation as a smoothed and averaged form of policy iteration. Specifically, we introduce doubly smoothed policy iteration (DSPI), a Bellman-operator framework in which each policy is obtained by applying a regularized greedy step to a weighted average of past $Q$-functions. DSPI includes policy iteration, dual-averaged policy iteration, natural policy gradient, and more general policy dual averaging methods as special cases. Using only monotonicity and contraction of smoothed Bellman operators, we prove distribution-free global geometric convergence of DSPI. Consequently, standard natural policy gradient and policy dual averaging achieve an iteration complexity of $\mathcal{O}((1-γ)^{-1}\log((1-γ)^{-1}ε^{-1}))$ for computing an $ε$-optimal policy, without modifying the MDP, adding regularization beyond the mirror map inherent in the update, or using adaptive, trajectory-dependent stepsizes. For the unregularized greedy case, corresponding to dual-averaged policy iteration, we also prove finite termination. The same Bellman-operator framework further extends to discounted MDPs with linear function approximation and stochastic shortest path problems.
Abstract（参考訳）: 本研究では、強化学習における中核的アルゴリズムである自然政策勾配が、スムーズで平均化された政策反復形式として正確な定式化を許容していることを示す。具体的には,従来のQ$-関数の重み付き平均に正規化グリージーステップを適用することで,各ポリシーを得られるベルマン・オペレーター・フレームワークであるDouubly smoothed Policy iteration (DSPI)を導入する。 DSPIには、ポリシーのイテレーション、二重平均ポリシーのイテレーション、自然政策の勾配、そして特別なケースとしてより一般的なポリシーの二重平均化方法が含まれる。滑らかなベルマン作用素の単調性と収縮のみを用いることで、DSPIの分布自由大域的幾何収束を証明できる。したがって、標準自然ポリシー勾配とポリシー双対平均化は、MDPを変更することなく$ε$-最適化ポリシーを計算するための$\mathcal{O}((1-γ)^{-1}\log((1-γ)^{-1}ε^{-1})の反復複雑性を達成する。非正規化greedyの場合、双対平均化ポリシーの繰り返しに対応して、有限終端も証明する。同じBellman-operatorフレームワークは、線形関数近似と確率的最短経路問題を持つ割引MDPにも拡張されている。

関連論文リスト

Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文参考訳（メタデータ） (2025-10-06T01:56:31Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies [115.86431674214282]
我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。両手法が線形収束率と $mathcalO (1/epsilon2)$サンプル複雑度を, 単純で非適応的な幾何的に増加するステップサイズを用いて達成できることを示す。
論文参考訳（メタデータ） (2022-10-04T06:17:52Z)
First-order Policy Optimization for Robust Markov Decision Process [40.2022466644885]
我々はロバストマルコフ決定過程(MDP)の解法を考える。 MDPは、不確実な遷移カーネルを持つ割引状態、有限状態、有限作用空間 MDP の集合を含む。 $(mathbfs,mathbfa)$-矩形不確かさ集合に対して、ロバストな目的に関するいくつかの構造的な観察を確立する。
論文参考訳（メタデータ） (2022-09-21T18:10:28Z)
Sample Complexity of Policy-Based Methods under Off-Policy Sampling and Linear Function Approximation [8.465228064780748]
政策評価には、オフ政治サンプリングと線形関数近似を用いる。自然政策勾配(NPG)を含む様々な政策更新規則が政策更新のために検討されている。我々は、最適なポリシーを見つけるために、合計$mathcalO(epsilon-2)$サンプルの複雑さを初めて確立する。
論文参考訳（メタデータ） (2022-08-05T15:59:05Z)
Efficient Policy Iteration for Robust Markov Decision Processes via Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文参考訳（メタデータ） (2022-05-28T04:05:20Z)
Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。 VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文参考訳（メタデータ） (2021-06-23T01:08:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。