論文の概要: No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
- arxiv url: http://arxiv.org/abs/2509.21880v1
- Date: Fri, 26 Sep 2025 05:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.192561
- Title: No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
- Title(参考訳): 後ろにプロンプトがない:エントロピー誘導アドバンテージシェイピングによるLLM強化学習におけるゼロ変数プロンプトの爆発
- Authors: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang,
- Abstract要約: ゼロ分散プロンプトから学習信号を抽出する新しいアルゴリズムであるゼロ分散プロンプト(RL-ZVP)を導入する。
RL-ZVPは、応答を対比することなく、直接正しさを報償し、エラーを罰する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 35.34724727629745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を改善するための強力なフレームワークである。
しかし、GRPOのような現在の方法は、モデル応答が同じ入力に対して異なる問題のみに依存し、全ての応答が同じ報酬を受ける問題を無視している(いわゆるゼロ分散プロンプト)。
本研究では、このようなプロンプトは役に立たないが、実際、政策最適化に有意義なフィードバックを提供することができると論じる。
そこで本研究では,ゼロ分散プロンプトから学習信号を抽出するアルゴリズムであるZero-Variance Prompts (RL-ZVP)を導入する。
RL-ZVPは、応答をコントラストすることなく直接正しさを報償し、エラーをペナライズし、トークンレベルの特性でフィードバックを変調して、情報的なニュアンス信号を保存する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
これらの結果は、RLVRにおけるゼロ分散プロンプトから学習する未解決の可能性を浮き彫りにした。
関連論文リスト
- Learn Hard Problems During RL with Reference Guided Fine-tuning [56.56461712665904]
数学的推論のための強化学習(RL)は報酬の分散に悩むことがある。
本稿では,Reference-Guided Fine-Tuning (ReGFT)を導入し,ハード問題に対する正の軌道を合成し,RLの前にトレーニングする。
以上の結果から,ReGFTは報酬空間を効果的に克服し,より強力なRLに基づく数学的推論を解き放つことが示唆された。
論文 参考訳(メタデータ) (2026-03-01T18:41:28Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Explore Data Left Behind in Reinforcement Learning for Reasoning Language Models [61.78513830395669]
RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上に有効な手法として登場した。
モデルがより長く、規模が大きくなるにつれて、トレーニングのプロンプトは残余のプロンプトになる。
政策最適化フレームワークにおける探索的残留確率(Explore Residual Prompts in Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2025-11-06T20:40:27Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。