論文の概要: Not only where, But when: Temporal Scheduling for RLVR
- arxiv url: http://arxiv.org/abs/2605.25381v1
- Date: Mon, 25 May 2026 03:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.265891
- Title: Not only where, But when: Temporal Scheduling for RLVR
- Title(参考訳): RLVRのための時間スケジューリング
- Authors: Jinghao Zhang, Ruilin Li, Feng Zhao, Jiaqi Wang,
- Abstract要約: RLVR最適化の過程で、クレジット割り当て基準をスケジューリングする時間次元を導入する。
優先順位付けされたトークンは特定の政策行動で強調され、一般化に向けて徐々に減衰し、より安定的で効率的な学習ダイナミクスがもたらされることがわかった。
- 参考スコア(独自算出の注目度): 22.56453002071672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a core technique for post-training of Large Language Models (LLMs). While policy optimization is driven by all sampled tokens under a globally broadcast scalar reward, the heterogeneous policy behaviors exhibited along trajectories are largely overlooked without differentiation. Existing works address this by credit allocation, including token-level advantage reweighting, and selective token optimization, however, the allocation criterion are principally stagnant throughout training, limiting resilient policy evolution. In this work, we argue that \textit{when} learning signals are scheduled can be as important as \textit{where} they are allocated across tokens, and introduce the temporal dimension that scheduling the credit allocation criteria over the course of RLVR optimization. We find that prioritizing targeted tokens emphasized with specific policy behaviors, and gradually attenuating toward general optimization leads to more stable and efficient learning dynamics. Furthermore, we show that simple trajectory percentiles provide a natural perspective for distinguishing policy behaviors, and works effectively with temporal scheduling. Our analysis reveals that standard optimization substantially sacrifices policy entropy when simultaneously accommodating heterogeneous behaviors, whereas temporal scheduling yields healthier policy evolution dynamics. Experiments across mathematical and general reasoning benchmarks demonstrate consistent improvements, suggesting that temporal scheduling constitutes a promising optimization dimension.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は,Large Language Models(LLMs)のポストトレーニングのコア技術となっている。
政策最適化は、グローバルに放送されたスカラー報酬の下でサンプリングされた全てのトークンによって駆動されるが、軌道に沿った不均一な政策行動は、ほとんど差別化せずに見過ごされる。
既存の作業では、トークンレベルの優位性の再重み付けや選択的トークン最適化など、クレジットアロケーションによるこの問題に対処しているが、アロケーション基準は主にトレーニングを通じて停滞しており、レジリエントなポリシーの進化を制限している。
本研究では, トークン間で割り当てられる‘textit{when}学習信号は, トークン間で割り当てられる‘textit{where}’と同じくらい重要であり, RLVR最適化の過程で, クレジット割り当て基準をスケジューリングする時間次元を導入する。
ターゲットトークンの優先順位付けは、特定の政策行動に重点を置いており、一般最適化に向けて徐々に減衰することで、より安定的で効率的な学習のダイナミクスがもたらされることが判明した。
さらに、単純な軌道パーセンタイルは、政策行動の識別に自然な視点を与え、時間的スケジューリングを効果的に行うことを示す。
分析の結果、標準最適化は不均一な振る舞いを同時に調節する際のポリシーのエントロピーを著しく犠牲にするが、時間的スケジューリングはより健全なポリシーの進化のダイナミクスをもたらすことがわかった。
数学的および一般的な推論ベンチマークによる実験は一貫した改善を示し、時間的スケジューリングが有望な最適化次元を構成することを示唆している。
関連論文リスト
- Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - KIPPO: Koopman-Inspired Proximal Policy Optimization [4.46358470535211]
強化学習(RL)は様々な分野で大きな進歩を遂げてきた。
PPO(Proximal Policy)のような政策勾配法は、性能、安定性、計算効率のバランスのために人気を博している。
論文 参考訳(メタデータ) (2025-05-20T16:25:41Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。