論文の概要: Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
- arxiv url: http://arxiv.org/abs/2605.10909v1
- Date: Mon, 11 May 2026 17:49:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.048943
- Title: Revisiting Policy Gradients for Restricted Policy Classes: Escaping Myopic Local Optima with $k$-step Policy Gradients
- Title(参考訳): 制限された政策クラスに対する政策グラディエントの再検討:$k$-step政策グラディエントによるミオピック局所オプティマスの脱出
- Authors: Alex DeWeese, Guannan Qu,
- Abstract要約: この研究は、制限されたポリシークラスで使用される標準ポリシー勾配メソッドを再考する。
一般化された$k$-stepポリシー勾配法を提案し,そのランダム性を$k$-step時間ウィンドウ内で結合する。
本手法は,最適決定性ポリシーに指数関数的に近い解に収束することが理論的に保証されていることを示す。
- 参考スコア(独自算出の注目度): 8.64427265159929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work revisits standard policy gradient methods used on restricted policy classes, which are known to get stuck in suboptimal critical points. We identify an important cause for this phenomenon to be that the policy gradient is itself fundamentally myopic, i.e. it only improves the policy based on the one-step $Q$-function. In this work, we propose a generalized $k$-step policy gradient method that couples the randomness within a $k$-step time window and can escape the myopic local optima in MDPs with restricted policy classes. We show this new method is theoretically guaranteed to converge to a solution that is exponentially close in performance to the optimal deterministic policy with respect to $k$. Further, we show projected gradient descent and mirror descent with this $k$-step policy gradient can achieve this exponential guarantee in $O(\frac{1}{T})$ iterations, despite only assuming smoothness and differentiability of the value function. This will provide near optimal solutions to previously elusive applications like state aggregation and partially observable cooperative multi-agent settings. Moreover, our bounds avoid the ubiquitous distribution mismatch factors $||d_μ^{π^*} / d_μ^π||_\infty$ and $||d_μ^{π^*} / μ||_\infty$ enabling the $k$-step policy gradient method to escape suboptimal critical points that emerge from poor exploration in fully observable settings.
- Abstract(参考訳): この研究は、制限された政策クラスで使用される標準の政策勾配法を再検討し、これは最適下限臨界点で立ち往生することが知られている。
この現象の重要な原因は、政策勾配自体が基本的にミオピックであること、すなわち、一段階の$Q$-関数に基づいて政策を改善することである。
そこで本研究では,制限されたポリシークラスを持つMDPにおいて,ランダム性を$k$-step時間ウィンドウ内で結合し,ミオロピック局所最適化を回避可能な,一般化された$k$-stepポリシー勾配法を提案する。
我々は、この新手法が、$k$に対する最適決定論ポリシーに指数関数的に近い解に収束することが理論的に保証されていることを示す。
さらに、この$k$ステップのポリシー勾配で投影された勾配降下とミラー降下は、値関数の滑らかさと微分性のみを仮定するにもかかわらず、$O(\frac{1}{T})$繰り返しにおいてこの指数的な保証を達成することができることを示す。
これにより、状態アグリゲーションや部分的に観察可能な協調型マルチエージェント設定といった、先例のないアプリケーションに対して、ほぼ最適なソリューションが提供される。
さらに、我々の境界は、ユビキタス分布のミスマッチ因子 $|d_μ^{π^*} / d_μ^π||_\infty$ と $|d_μ^{π^*} / μ||_\infty$ を回避し、フルオブザーバブル環境での探索不良から生じる準最適臨界点の回避を可能にする。
関連論文リスト
- Achieve Performatively Optimal Policy for Performative Reinforcement Learning [55.983627302691424]
本研究は,0階次FrankWolfe- (0FW) アルゴリズムを提案する。
実験結果から, 所望のPOポリシを求める場合, 既存の近似よりも0FWの方が有効であることが示唆された。
論文 参考訳(メタデータ) (2025-10-06T01:56:31Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。
我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文 参考訳(メタデータ) (2025-02-16T08:05:46Z) - Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。
次に,政策最適化におけるコミット率の概念を紹介する。
第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文 参考訳(メタデータ) (2021-10-29T06:35:44Z) - Softmax Policy Gradient Methods Can Take Exponential Time to Converge [60.98700344526674]
Softmax Policy gradient(PG)メソッドは、現代の強化学習におけるポリシー最適化の事実上の実装の1つです。
ソフトマックス PG 法は、$mathcalS|$ および $frac11-gamma$ の観点から指数時間で収束できることを実証する。
論文 参考訳(メタデータ) (2021-02-22T18:56:26Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。