論文の概要: Post-Training with Policy Gradients: Optimality and the Base Model Barrier
- arxiv url: http://arxiv.org/abs/2603.06957v1
- Date: Sat, 07 Mar 2026 00:25:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.496301
- Title: Post-Training with Policy Gradients: Optimality and the Base Model Barrier
- Title(参考訳): 政策グラディエントによるポストトレーニング:最適化とベースモデルバリア
- Authors: Alireza Mousavi-Hosseini, Murat A. Erdogdu,
- Abstract要約: 結果とプロセス報酬を伴う線形自己回帰モデルの訓練後評価について検討する。
我々は、ポリシー勾配(PG)の変種が、本質的に最小限の報酬クエリ数を持つ1-varepsilon$を実現できることを証明した。
- 参考スコア(独自算出の注目度): 27.674563695368665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study post-training linear autoregressive models with outcome and process rewards. Given a context $\boldsymbol{x}$, the model must predict the response $\boldsymbol{y} \in Y^N$, a sequence of length $N$ that satisfies a $γ$ margin condition, an extension of the standard separability to sequences. We prove that on test samples where the base model achieves a non-trivial likelihood $α$, a variant of policy gradient (PG) can achieve likelihood $1 - \varepsilon$ with an essentially minimax optimal number of reward queries $\tilde{O}((α^{-1} + \varepsilon^{-1})/γ^2)$. However, a barrier arises for going beyond the support of the base model. We prove that the overall expected error after post-training with outcome rewards is governed by a property of the base model called the Likelihood Quantile (LQ), and that variants of PG, while minimax optimal, may require a number of reward queries exponential in $N$ to go beyond this support, regardless of the pre-training algorithm. To overcome this barrier, we study post-training with a process reward model, and demonstrate how PG variants in this setting avoid the curse of dimensionality in $N$ via dependence on a token-level LQ. Along the way, we prove that under the margin condition, SGD with adaptive learning rate (LR) achieves a near optimal test error for statistical learning, and PG with adaptive LR achieves a near optimal number of mistakes for online learning while being computationally efficient whenever possible, both of which may be of independent interest.
- Abstract(参考訳): 結果とプロセス報酬を伴う線形自己回帰モデルの訓練後評価について検討する。
文脈 $\boldsymbol{x}$ が与えられたとき、モデルは応答 $\boldsymbol{y} \in Y^N$ を予測しなければならない。
基本モデルが非自明な自明な$α$を達成するテストサンプルにおいて、ポリシー勾配の変種(PG)が1-\varepsilon$を、本質的に最小限の報酬クエリ数$\tilde{O}((α^{-1} + \varepsilon^{-1})/γ^2)$で得ることを証明している。
しかし、ベースモデルのサポートを超えて、障壁が発生する。
結果報酬を用いた後学習後の全体的な予測誤差は、LQ(Likelihood Quantile)と呼ばれるベースモデルの特性によって制御され、PGの変種は、極小であるにもかかわらず、事前学習アルゴリズムによらず、このサポートを超えるために、指数的に$N$の報酬クエリを必要とする可能性があることを証明した。
この障壁を克服するために、プロセス報酬モデルを用いた後トレーニングを行い、トークンレベルのLQに依存することで、この設定におけるPG変種が$N$の次元性の呪いを避ける方法を実証する。
その過程で,適応学習率(LR)のSGDが統計的学習においてほぼ最適なテスト誤差を達成し,適応学習のPGが可能な限り計算効率の良いオンライン学習においてほぼ最適な誤り数を達成することを証明した。
関連論文リスト
- A Finite Sample Complexity Bound for Distributionally Robust Q-learning [17.96094201655567]
我々は,展開環境が訓練環境と異なる強化学習環境を考える。
ロバストなマルコフ決定プロセスの定式化を適用することで、Liuらで研究されている分布的にロバストな$Q$ラーニングフレームワークを拡張します。
これはモデルのないロバストなRL問題に対する最初のサンプル複雑性結果である。
論文 参考訳(メタデータ) (2023-02-26T01:15:32Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Overcoming the Long Horizon Barrier for Sample-Efficient Reinforcement
Learning with Latent Low-Rank Structure [9.759209713196718]
我々は、対応する最適$Q*$関数が低ランクであるMDPのクラスを考える。
より強い低階構造仮定の下では、生成モデル(LR-MCPI)と低階経験値イテレーション(LR-EVI)が、ランクに対して$tildeOleft((|S|+|A|)mathrmpoly(d,H)/epsilon2right)$の所望のサンプル複雑性を実現することが示されている。
論文 参考訳(メタデータ) (2022-06-07T20:39:51Z) - KL-Entropy-Regularized RL with a Generative Model is Minimax Optimal [70.15267479220691]
モデル強化学習のサンプル複雑性を,生成的分散自由モデルを用いて検討・解析する。
我々の分析は、$varepsilon$が十分小さい場合、$varepsilon$-optimal Policyを見つけるのが、ほぼ最小の最適化であることを示している。
論文 参考訳(メタデータ) (2022-05-27T19:39:24Z) - Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs
with a Generative Model [3.749193647980305]
本稿では,一連の状態対応機能を有するマルコフ決定プロセス(MDP)について考察する。
モデルに基づくアプローチ(resp.$Q-learning)が、高い確率で$varepsilon$-Optimalポリシーを確実に学習することを示す。
論文 参考訳(メタデータ) (2021-05-28T17:49:39Z) - Model-Based Multi-Agent RL in Zero-Sum Markov Games with Near-Optimal
Sample Complexity [67.02490430380415]
モデルに基づくMARLは、Nash平衡値(NE)を求めるために$tilde O(|S||B|(gamma)-3epsilon-2)$のサンプル複雑性を実現する。
また、アルゴリズムが報酬に依存しない場合、そのようなサンプル境界は最小値(対数因子まで)であり、アルゴリズムは報酬知識のない遷移サンプルを問合せする。
論文 参考訳(メタデータ) (2020-07-15T03:25:24Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。