論文の概要: Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing
- arxiv url: http://arxiv.org/abs/2602.03452v1
- Date: Tue, 03 Feb 2026 12:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.439627
- Title: Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing
- Title(参考訳): 変動を超えて: 希少事象増幅と双方向ペアリングによるプロンプト効率の良いRLVR
- Authors: Xin Sheng, Jiaxin Li, Yujuan Pang, Ran Peng, Yong Ma,
- Abstract要約: 検証可能な報酬付き強化学習(RLVR)は、決定論的結果推論タスクにおいて、大規模言語モデルのトレーニングに有効である。
以前の研究によると、RLVRはプロンプトが少ないが、迅速な選択はトレーニング精度のばらつきにのみ基づくことが多い。
有効なミニバッチは、(i)信頼できる正のアンカーと(ii)稀な障害からの明確な負の学習信号の両方を提供するべきである。
- 参考スコア(独自算出の注目度): 21.946965363578087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is effective for training large language models on deterministic outcome reasoning tasks. Prior work shows RLVR works with few prompts, but prompt selection is often based only on training-accuracy variance, leading to unstable optimization directions and weaker transfer. We revisit prompt selection from a mechanism-level view and argue that an effective minibatch should provide both (i) a reliable positive anchor and (ii) explicit negative learning signals from rare failures. Based on this principle, we propose \emph{positive--negative pairing}: at each update, we sample a hard-but-solvable $q^{+}$ and an easy-but-brittle prompt $q^{-}$(high success rate but not perfect), characterized by low and high empirical success rates under multiple rollouts. We further introduce Weighted GRPO, which reweights binary outcomes at the pair level and uses group-normalized advantages to amplify rare successes on $q^{+}$ into sharp positive guidance while turning rare failures on $q^{-}$ into strong negative penalties. This bidirectional signal provides informative learning feedback for both successes and failures, improving sample efficiency without suppressing exploration. On Qwen2.5-Math-7B, a single paired minibatch per update consistently outperforms a GRPO baseline that selects two prompts via commonly used variance-based selection heuristics: AIME~2025 Pass@8 improves from 16.8 to 22.2, and AMC23 Pass@64 from 94.0 to 97.0, while remaining competitive with large-scale RLVR trained from a pool of 1209 training prompts. Similar gains are observed on Qwen2.5-Math-7B-Instruct.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、決定論的結果推論タスクにおいて、大規模言語モデルのトレーニングに有効である。
以前の研究では、RLVRはわずかなプロンプトで機能するが、迅速な選択はトレーニング精度の分散のみに基づいており、不安定な最適化方向とより弱い転送につながる。
我々は機構レベルの観点からの迅速な選択を再考し、効果的なミニバッチは両方を提供するべきだと主張する。
(i)信頼できる正のアンカー及びアンカー
(II)まれな失敗による明らかな負の学習信号。
この原理に基づいて,各更新において,難解な$q^{+}$と難解な$q^{-}$(高い成功率だが完璧ではない)のプロンプト$q^{-}$(高い成功率)をサンプリングする。
さらにWeighted GRPOを導入し、これはペアレベルでのバイナリ結果を再重み付けし、グループ正規化の利点を用いて、$q^{+}$で稀な成功を鋭い正のガイダンスに増幅し、$q^{-}$で稀な失敗を強い負の罰に変換する。
この双方向信号は、成功と失敗の両方に対して情報的学習フィードバックを提供し、探索を抑えることなくサンプル効率を向上させる。
Qwen2.5-Math-7Bでは、1回の更新毎に1対のミニバッチがGRPOベースラインを一貫して上回り、一般的に使用される分散ベースの選択ヒューリスティックによって2つのプロンプトを選択する: AIME~2025 Pass@8は16.8から22.2に改善され、AMC23 Pass@64は94.0から97.0に改善された。
Qwen2.5-Math-7B-Instructでも同様の利得が観察される。
関連論文リスト
- CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping [35.34724727629745]
ゼロ分散プロンプトから学習信号を抽出する新しいアルゴリズムであるゼロ分散プロンプト(RL-ZVP)を導入する。
RL-ZVPは、応答を対比することなく、直接正しさを報償し、エラーを罰する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-09-26T05:03:54Z) - The Surprising Effectiveness of Negative Reinforcement in LLM Reasoning [37.13807960501503]
検証可能な報酬を伴う強化学習(RLVR)は、言語モデル(LM)のトレーニングに有望なアプローチである
我々は学習信号を正しい応答の強化と正負の正負の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の
我々は、NSRが不正確な世代を抑え、確率質量を他の可算候補に向けて再分配することで、モデルの以前の信念に導かれることを示す。
論文 参考訳(メタデータ) (2025-06-02T06:10:54Z) - WR-ONE2SET: Towards Well-Calibrated Keyphrase Generation [57.11538133231843]
キーワード生成は、入力文書を要約する短いフレーズを自動的に生成することを目的としている。
最近登場したONE2SETパラダイムは、キーフレーズをセットとして生成し、競争性能を達成した。
本稿では, ONE2SET を拡張した WR-ONE2SET を提案する。
論文 参考訳(メタデータ) (2022-11-13T09:56:24Z) - Supervised Advantage Actor-Critic for Recommender Systems [76.7066594130961]
本稿では、RL成分を学習するための負のサンプリング戦略を提案し、それを教師付き逐次学習と組み合わせる。
サンプル化された(負の)作用 (items) に基づいて、平均ケース上での正の作用の「アドバンテージ」を計算することができる。
SNQNとSA2Cを4つのシーケンシャルレコメンデーションモデルでインスタンス化し、2つの実世界のデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-11-05T12:51:15Z) - Efficiently Teaching an Effective Dense Retriever with Balanced Topic
Aware Sampling [37.01593605084575]
TAS-Balancedは、効率的なトピック認識クエリとバランスの取れたマージンサンプリング技術です。
本稿では,2つのTRECディープラーニングトラッククエリセットに対して,最先端の低レイテンシ(クエリ毎64ms)を実現するTAS-Balancedトレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-04-14T16:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。