論文の概要: No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
- arxiv url: http://arxiv.org/abs/2509.21880v1
- Date: Fri, 26 Sep 2025 05:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.192561
- Title: No Prompt Left Behind: Exploiting Zero-Variance Prompts in LLM Reinforcement Learning via Entropy-Guided Advantage Shaping
- Title(参考訳): 後ろにプロンプトがない:エントロピー誘導アドバンテージシェイピングによるLLM強化学習におけるゼロ変数プロンプトの爆発
- Authors: Thanh-Long V. Le, Myeongho Jeon, Kim Vu, Viet Lai, Eunho Yang,
- Abstract要約: ゼロ分散プロンプトから学習信号を抽出する新しいアルゴリズムであるゼロ分散プロンプト(RL-ZVP)を導入する。
RL-ZVPは、応答を対比することなく、直接正しさを報償し、エラーを罰する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 35.34724727629745
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful framework for improving the reasoning abilities of Large Language Models (LLMs). However, current methods such as GRPO rely only on problems where the model responses to the same input differ in correctness, while ignoring those where all responses receive the same reward - so-called zero-variance prompts. In this work, we argue that such prompts are not useless but can, in fact, provide meaningful feedback for policy optimization. To this end, we introduce RL with Zero-Variance Prompts (RL-ZVP), a novel algorithm that extract learning signals from zero-variance prompts. RL-ZVP directly rewards correctness and penalizes errors even without contrasting responses, modulating feedback with token-level characteristics to preserve informative, nuanced signals. Across six math reasoning benchmarks, RL-ZVP achieves significant improvements of up to 8.61 points in accuracy and 7.77 points in pass rate over GRPO, while consistently outperforming other baselines that filter out zero-variance prompts. These results highlight the untapped potential of learning from zero-variance prompts in RLVR.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を改善するための強力なフレームワークである。
しかし、GRPOのような現在の方法は、モデル応答が同じ入力に対して異なる問題のみに依存し、全ての応答が同じ報酬を受ける問題を無視している(いわゆるゼロ分散プロンプト)。
本研究では、このようなプロンプトは役に立たないが、実際、政策最適化に有意義なフィードバックを提供することができると論じる。
そこで本研究では,ゼロ分散プロンプトから学習信号を抽出するアルゴリズムであるZero-Variance Prompts (RL-ZVP)を導入する。
RL-ZVPは、応答をコントラストすることなく直接正しさを報償し、エラーをペナライズし、トークンレベルの特性でフィードバックを変調して、情報的なニュアンス信号を保存する。
6つの数学推論ベンチマークで、RL-ZVPはGRPOよりも最大8.61ポイント、パスレート7.77ポイントの大幅な改善を実現している。
これらの結果は、RLVRにおけるゼロ分散プロンプトから学習する未解決の可能性を浮き彫りにした。
関連論文リスト
- RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Bridging Supervised Learning and Reinforcement Learning in Math Reasoning [55.889740979706815]
強化学習(Reinforcement Learning, RL)は、二分検証信号による自己改善を可能にすることで、近年の数学能力の急上昇において中心的な役割を担っている。
本研究は,LLMが障害を反映し,外部教師なしで自律的に改善できる教師型アプローチである負認識ファインチューニング(NFT)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:17:40Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。