論文の概要: Learning to Solve, Forgetting to Retain: Correct-Set Turnover in RLVR
- arxiv url: http://arxiv.org/abs/2606.03087v1
- Date: Tue, 02 Jun 2026 03:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.718244
- Title: Learning to Solve, Forgetting to Retain: Correct-Set Turnover in RLVR
- Title(参考訳): RLVRにおける正しいセットのターンオーバー
- Authors: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Peng Fu, Zheng Lin,
- Abstract要約: 検証可能な報酬(RLVR)による強化学習は、大きな言語モデルの能力を向上させるが、見出し精度の向上は隠れたコストを隠蔽することが多い。
我々は、マスタされたプロンプトを追跡し、それを定期的に再導入して、過去のソリューションのモデルをtextbfremindに再導入するリテンション対応レビューメカニズムであるtextbfmethodを提案する。
- 参考スコア(独自算出の注目度): 16.681943272535104
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) improves the ability of large language model, yet headline accuracy gains often conceal a hidden cost: previously solved problems quietly become unsolvable as training proceeds. We frame this phenomenon as \emph{correct-set turnover}, representing the coupled dynamics of solution acquisition and regression over the mastered set. Under this view, retention becomes an explicit optimization target alongside acquisition. We analytically and empirically establish the \emph{repair-window principle}: the cost of restoring a regressed prompt grows sharply with review delay, defining a low-cost window that standard RLVR pipelines fail to exploit. To address this, we propose \textbf{\method{}}, a retention-aware review mechanism that tracks mastered prompts and periodically reintroduces them to \textbf{remind} the model of previous solutions. By utilizing pre-rollout batch replacement, \method{} incurs zero additional rollout overhead. Evaluated across 20 benchmarks spanning image-text, video, and text-only tasks with Qwen3-VL and Qwen2.5-Math, \method{} consistently improves performance over GRPO, DAPO, and replay baselines, demonstrating robust generalizability across modalities and algorithms.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、大きな言語モデルの能力を向上させるが、見出し精度の向上は、しばしば隠れたコストを隠蔽する。
我々は、この現象を「emph{correct-set turnover}」と呼び、マスター集合上の解の獲得と回帰の結合力学を表す。
この観点では、保持は買収とともに明確な最適化対象となる。
回帰プロンプトを復元するコストは、レビューの遅延とともに急激に増加し、標準のRLVRパイプラインが利用できない安価なウィンドウを定義する。
これを解決するために,マスタされたプロンプトを追跡し,それを以前のソリューションのモデルであるtextbf{remind} に定期的に再導入する保持対応のレビュー機構である \textbf{\method{}} を提案する。
ロールアウト前のバッチ置換を利用することで,‘method{} はロールアウトオーバーヘッドをゼロにする。
Qwen3-VL と Qwen2.5-Math で画像テキスト、ビデオ、テキストのみのタスクにまたがる20のベンチマークで評価された \method{} は、GRPO、DAPO、リプレイベースラインのパフォーマンスを一貫して改善し、モダリティとアルゴリズムをまたいだ堅牢な一般化性を実証している。
関連論文リスト
- On the Direction of RLVR Updates for LLM Reasoning: Identification and Exploitation [81.29776444949539]
アップデートの方向性は、RLVRの効果を理解するためのより重要なレンズである、と我々は主張する。
我々の研究は、RLVRの分析と改善の鍵となる原則として変化の方向を確立する。
論文 参考訳(メタデータ) (2026-03-23T15:42:24Z) - $\textbf{Re}^{2}$: Unlocking LLM Reasoning via Reinforcement Learning with Re-solving [75.29519604607111]
検証可能な報奨(RLVR)による強化学習は、大規模言語モデル(LLM)の推論性能を高めることを約束している。
チェーン・オブ・シークレット(CoT)の初期方向や品質が最適以下である場合、モデルが正しい答えに到達できないことがよく示される。
再解決による強化学習 (Reinforcement Learning with Re-solving, Re$2$) を導入し, LLM が非生産的推論経路を柔軟に放棄し,必要ならば解法を再開することを学ぶ。
論文 参考訳(メタデータ) (2026-03-07T13:17:46Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Contextual Rollout Bandits for Reinforcement Learning with Verifiable Rewards [69.74686029941881]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルの推論能力を改善するための効果的なパラダイムである。
トレーニングを通して高価値ロールアウトを適応的に選択する統合型ニューラルネットワークスケジューリングフレームワークを提案する。
6つの数学的推論ベンチマークの実験では、複数のRLVR最適化手法で性能と訓練効率が一貫した向上を示した。
論文 参考訳(メタデータ) (2026-02-09T10:51:58Z) - Limits of Generalization in RLVR: Two Case Studies in Mathematical Reasoning [3.437656066916039]
Reinforcement with Verifiable Rewards (RLVR)は、そのような機能を強化するための有望なアプローチとして登場した。
完全検証解の2つの問題についてRLVRについて検討する。
RLVRは評価基準を改善するが、しばしば新たな推論戦略を得るよりも、表層学習指標を強化することで改善する。
論文 参考訳(メタデータ) (2025-10-30T23:16:02Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Implicit Actor Critic Coupling via a Supervised Learning Framework for RLVR [25.56828724912418]
Reinforcement Learning with Verifiable Rewards (RLVR) の最近の進歩は、数学やプログラミングといった難解な推論課題に取り組むために、大規模言語モデル(LLM)に力を与えている。
約束にもかかわらず、RLVRパラダイムは大きな課題を生んでいる。
我々は,im$textbfP$licit $textbfA$ctor $textbfC$ritic couplingを実現する新しいRLVRフレームワークである$textbfPACS$を提案する。
論文 参考訳(メタデータ) (2025-09-02T17:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。