論文の概要: A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning
- arxiv url: http://arxiv.org/abs/2602.01523v1
- Date: Mon, 02 Feb 2026 01:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.83378
- Title: A Relative-Budget Theory for Reinforcement Learning with Verifiable Rewards in Large Language Model Reasoning
- Title(参考訳): 大規模言語モデル推論における検証可能なリワードを用いた強化学習の相対予算理論
- Authors: Akifumi Wachi, Hirota Kinoshita, Shokichi Takakura, Rei Higuchi, Taiji Suzuki,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を改善するための主要なパラダイムである。
本稿では, 相対予算$:= H/mathbbE[T]$という単一の量を用いて, この変動を説明する式式予算理論を提案する。
報奨の分散と情報トラジェクトリの確率を制御して,$$がサンプル効率を決定することを示す。
- 参考スコア(独自算出の注目度): 48.70183357021465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) is a dominant paradigm for improving the reasoning abilities of large language models, yet its effectiveness varies across tasks and compute budgets. We propose a \emph{relative-budget} theory explaining this variation through a single quantity called relative budget $ξ:= H/\mathbb{E}[T]$, where $H$ is the generation horizon (token budget) and $T$ denotes the number of tokens until the first correct solution under a base policy. We show that $ξ$ determines sample efficiency by controlling reward variance and the likelihood of informative trajectories. Our analysis reveals three regimes: in the \emph{deficient} regime ($ξ\to 0$), informative trajectories are rare and the sample complexity explodes; in the \emph{balanced} regime ($ξ=Θ(1)$), informative trajectories occur with non-negligible probability and RL is maximally sample-efficient; and in the \emph{ample} regime ($ξ\to \infty$), learning remains stable but marginal gains per iteration diminish. We further provide finite-sample guarantees for online RL that characterize learning progress across these regimes. Specifically, in a case study under idealized distributional assumptions, we show that the relative budget grows linearly over iterations. Our empirical results confirm these predictions in realistic settings, identifying a budget $ξ\in [1.5, 2.0]$ that maximizes learning efficiency and coincides with peak reasoning performance.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を改善するための主要なパラダイムであるが、その有効性はタスクや計算予算によって異なる。
相対的予算= H/\mathbb{E}[T]$, ここでは、$H$は生成地平線(token budget)であり、$T$は、基本方針の下で最初の正しい解までトークンの数を表す。
我々は,報奨の分散と情報トラジェクトリの確率を制御して,サンプル効率を$$で決定することを示した。
我々の分析では、3つのレジームが明らかである: \emph{deficient} regime(\to 0$)では、情報的トラジェクトリはまれであり、サンプルの複雑さは爆発する; \emph{ Balanced} regime()では、情報的トラジェクトリは非無視的な確率で発生し、RLは最大標本効率である; \emph{ample} regime(\to \infty$)では、学習は安定だが、反復毎に限界ゲインは減少する。
さらに、これらの制度における学習の進捗を特徴付けるオンラインRLに対して、有限サンプル保証を提供する。
具体的には、理想化された分布仮定の下でのケーススタディにおいて、相対予算が反復よりも線形に増加することを示す。
実験の結果、これらの予測を現実的な環境で検証し、学習効率を最大化し、ピーク推論性能と一致した予算を1.5,2.0ドルとした。
関連論文リスト
- Bellman Unbiasedness: Toward Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
有限エピソードマルコフ決定過程における一般値関数近似を用いた分布強化学習の後悔の解析を行った。
証明可能なアルゴリズムである$textttSF-LSVI$を提案し、$tildeO(d_E Hfrac32sqrtK)$で、$H$は地平線、$K$はエピソード数、$d_E$は関数クラスの退化次元である。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Demonstration-Regularized RL [39.96273388393764]
専門的な実証から,次数$widetildeO(mathrmPoly(S,A,H)/(varepsilon2 NmathrmE)$および$widetildeO(mathrmPoly(d,H)/(varepsilon2 NmathrmE)$の線形マルコフ決定過程における最適ポリシを同定した。
実演規則化手法が人間のフィードバックからの強化学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-10-26T10:54:47Z) - Settling the Sample Complexity of Online Reinforcement Learning [92.02082223856479]
バーンインコストを発生させることなく、最小限の最適後悔を実現する方法を示す。
最適値/コストや一定の分散といった問題依存量の影響を明らかにするために、我々の理論を拡張します。
論文 参考訳(メタデータ) (2023-07-25T15:42:11Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。