論文の概要: CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning
- arxiv url: http://arxiv.org/abs/2605.24331v1
- Date: Sat, 23 May 2026 01:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:17.937739
- Title: CurveRL: Principled Distribution-Aware Context Reweighting for LLM Reasoning
- Title(参考訳): CurveRL: LLM推論のための原則的分布認識コンテキスト強調
- Authors: Ke Sun, Yizhou Zhao, Jiayi Xin, Qi Long, Weijie Su,
- Abstract要約: Reinforcement Learning with Verified Rewardsでは、コンテクストやプロンプトレベルのリウェイトがアルゴリズムレバーの中心として登場した。
本稿では,量子座標変換に基づく分布認識型プロンプト再重み付け手法CurveRLを提案する。
本研究は,RLVRアルゴリズムを解析・設計するための基本軸として,文脈分布制御を同定する。
- 参考スコア(独自算出の注目度): 20.44110921033217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Context or prompt-level reweighting has emerged as a central algorithmic lever in Reinforcement Learning with Verified Rewards (RLVR) for improving the reasoning capability of large language models, yet the principle determining what constitutes an optimal weighting remains poorly understood. We address this gap by formulating prompt reweighting as a functional derivative of a utility functional defined in the pass-rate function space, yielding a unified optimality framework that accommodates existing schemes, including REINFORCE and GRPO. Building on this optimality framework, we propose a distribution-aware prompt reweighting approach, called CurveRL, based on a quantile coordinate transform, in which the weight assigned to each prompt depends not on the absolute value of pass rates but on its rank and density to reflect the distributional structure of the pass rates in the learning dynamics. Extensive experiments across multiple benchmarks demonstrate that our proposed CurveRL consistently outperforms GRPO and other RLVR baselines. Our study identifies context-distribution control as a principled axis for analyzing and designing prompt-reweighted RLVR algorithms. The code is released in https://github.com/zhyzmath/CurveRL.
- Abstract(参考訳): Reinforcement Learning with Verified Rewards (RLVR) において、大規模言語モデルの推論能力を改善するための中心的なアルゴリズムレバーとして、文脈やプロンプトレベルの再重み付けが登場したが、最適な重み付けを構成するものを決定する原理はいまだよく理解されていない。
本稿では,ReINFORCE や GRPO などの既存のスキームに対応する統一最適性フレームワークを,パスレート関数空間で定義したユーティリティ関数の関数微分として,プロンプト再重み付けを定式化することによって,このギャップに対処する。
この最適性フレームワークに基づいて、各プロンプトに割り当てられる重み付けは、パスレートの絶対値ではなく、そのランクと密度に依存して学習力学におけるパスレートの分布構造を反映する、量子化座標変換に基づく分布対応プロンプト再重み付け手法CurveRLを提案する。
複数のベンチマークにわたる大規模な実験により、提案したCurveRLはGRPOや他のRLVRベースラインを一貫して上回っていることが示された。
本研究は,RLVRアルゴリズムを解析・設計するための基本軸として,文脈分布制御を同定する。
コードはhttps://github.com/zhyzmath/CurveRLで公開されている。
関連論文リスト
- Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR [53.27792011950384]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデルの推論能力を改善するためのスケーラブルなパラダイムとして登場した。
我々は、RLVRにおける構造化及び多様性駆動探索のためのフレームワークであるNudgeRLを提案する。
当社のアプローチでは,各ロールアウトを,軽量で戦略レベルのコンテキストに設定するストラテジーナッジを導入しています。
論文 参考訳(メタデータ) (2026-05-15T08:22:59Z) - Beyond Normalization: Rethinking the Partition Function as a Difficulty Scheduler for RLVR [23.417956258945427]
本稿では,学習中の情報的質問文の優先順位付けに精度推定を利用するポストトレーニングフレームワークを提案する。
PACED-RL は LLM のより効率的な分布マッチング訓練のための有望な方向である。
論文 参考訳(メタデータ) (2026-02-13T06:04:14Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - One Framework to Rule Them All: Unifying RL-Based and RL-Free Methods in RLHF [2.1212179660694104]
本稿では,RLHF(Reinforcement Learning from Human Feedback)とLRM(Large Reasoning Models)に対処するために,RLベースおよびRLフリーの手法について検討する。
我々は、ニューラルネットワークによる帯域予測の観点から、いくつかのRLベースおよびRLフリーアルゴリズムを再解釈する。
これにより、完全なRLコンテキスト内で標準RLHFの目的を詳細に導出し、ニューラルネットワークのバンドイット予測と等価性を示す。
論文 参考訳(メタデータ) (2025-03-25T10:23:26Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。
当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。
ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T06:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。