論文の概要: Why Policy Gradient Algorithms Work for Undiscounted Total-Reward MDPs
- arxiv url: http://arxiv.org/abs/2510.18340v1
- Date: Tue, 21 Oct 2025 06:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.032538
- Title: Why Policy Gradient Algorithms Work for Undiscounted Total-Reward MDPs
- Title(参考訳): 政策グラディエントアルゴリズムが非カウントのトータルリワードMDPになぜ機能するか
- Authors: Jongmin Lee, Ernest K. Ryu,
- Abstract要約: 古典的政策勾配法は、現代政策に基づく強化学習アルゴリズムの理論的および概念的基礎である。
大規模言語モデルに対するポリシーベースのRLに関する最近の研究は、$gamma = 1$の未公表のトータル・リワード・セッティングを用いており、既存の理論の多くを適用不可能にしている。
- 参考スコア(独自算出の注目度): 28.213334434903775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The classical policy gradient method is the theoretical and conceptual foundation of modern policy-based reinforcement learning (RL) algorithms. Most rigorous analyses of such methods, particularly those establishing convergence guarantees, assume a discount factor $\gamma < 1$. In contrast, however, a recent line of work on policy-based RL for large language models uses the undiscounted total-reward setting with $\gamma = 1$, rendering much of the existing theory inapplicable. In this paper, we provide analyses of the policy gradient method for undiscounted expected total-reward infinite-horizon MDPs based on two key insights: (i) the classification of the MDP states into recurrent and transient states is invariant over the set of policies that assign strictly positive probability to every action (as is typical in deep RL models employing a softmax output layer) and (ii) the classical state visitation measure (which may be ill-defined when $\gamma = 1$) can be replaced with a new object that we call the transient visitation measure.
- Abstract(参考訳): 古典的ポリシー勾配法は、現代政策に基づく強化学習(RL)アルゴリズムの理論的および概念的基礎である。
このような方法の厳密な分析、特に収束保証を確立するものは、割引係数 $\gamma < 1$ を仮定する。
対照的に、大規模な言語モデルに対するポリシーベースのRLに関する最近の研究は、$\gamma = 1$の未公表のトータル・リワード・セッティングを使用しており、既存の理論の多くを適用できない。
本稿では,2つの重要な洞察に基づいて,未計算全逆無限水平MDPに対するポリシー勾配法の解析を行う。
i) MDP状態の繰り返し状態と過渡状態への分類は、すべてのアクションに厳密な正の確率を割り当てるポリシーの集合に対して不変である(ソフトマックス出力層を用いた深部RLモデルでは典型的である)。
(ii)古典的状態訪問測度($\gamma = 1$の場合に不定義になるかもしれない)は、過渡訪問測度と呼ばれる新しい対象に置き換えられる。
関連論文リスト
- Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - Convergence and Sample Complexity of First-Order Methods for Agnostic Reinforcement Learning [66.4260157478436]
政策学習における強化学習について検討する。
目的は、特定の種類の利害関係において最高の政策と競争力のある政策を見つけることである。
論文 参考訳(メタデータ) (2025-07-06T14:40:05Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文 参考訳(メタデータ) (2025-01-08T23:22:08Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Policy Optimization over General State and Action Spaces [3.722665817361884]
一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。
まず,最近開発された一般状態と行動空間を扱うために,政策ミラー降下法をかなり一般化した手法を提案する。
本手法に関数近似を組み込む新しい手法を導入し、明示的なポリシーパラメータ化を全く必要としない。
論文 参考訳(メタデータ) (2022-11-30T03:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。