論文の概要: Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards
- arxiv url: http://arxiv.org/abs/2605.28561v1
- Date: Wed, 27 May 2026 14:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.12902
- Title: Soft-SVeRL: Self-Verified Reinforcement Learning with Soft Rewards
- Title(参考訳): Soft-SVeRL:ソフトリワードを用いた自己検証強化学習
- Authors: Saurabh Dash, Pierre Clavier, John Dang, Matthias Galle, Marzieh Fadaee, Ahmet Üstün, Beyza Ermis,
- Abstract要約: Reinforcement Learning from Verifiable Rewards (RLVR)は、数学やコードなどの分野における言語モデルを改善している。
本稿では,分解された学習信号から強化学習を行うフレームワークであるSoft-RLVRを紹介する。
自己検証は、過度に許容される自己判断からインフレーションを報いる傾向があり、この崩壊を防ぐために明確な安定化が必要であることを示す。
- 参考スコア(独自算出の注目度): 24.040621624203823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Verifiable Rewards (RLVR) has improved language models in domains such as mathematics and code, where correctness can be checked automatically. However, many important tasks are only partially verifiable: prompts contain multiple requirements, responses may satisfy some but not all of them, or no single reference answer might exist. We introduce Soft-RLVR, a framework for reinforcement learning from decomposed, learned verification signals. Soft-RLVR converts each prompt into a checklist of atomic requirements, scores candidate responses item by item with an LLM verifier, and trains on the resulting soft reward. Checklist-based rewards turn sparse pass/fail supervision into a denser partial-credit signal, but they also introduce a tradeoff: averaging item-level judgments can reduce verifier noise, while partial credit can reward incomplete responses. We formalize this tradeoff and identify conditions under which checklist-based verification gives a more reliable RL training signal than holistic verification. We further introduce Soft-SVeRL, a self-verifying variant of Soft-RLVR in which the policy also acts as the verifier. We show that self-verification is prone to reward inflation from overly permissive self-judgments, and that explicit stabilization is needed to prevent this collapse. In a controlled instruction-following setting with rule-based ground-truth evaluation, checklist-based Soft-RLVR improves IFEval by up to 11.1 points using only learned verifier rewards. Our experiments further show that verifier quality and checklist quality both affect downstream RL outcomes, and that explicit stabilization is essential for effective self-verification.
- Abstract(参考訳): Reinforcement Learning from Verifiable Rewards (RLVR)は、数学やコードなどの分野における言語モデルを改善し、正確性を自動的にチェックできる。
しかし、多くの重要なタスクは部分的には検証できない:プロンプトには複数の要件が含まれており、応答はそれら全てを満たさないかもしれないし、単一の参照応答が存在しないかもしれない。
本稿では,分解された学習信号から強化学習を行うフレームワークであるSoft-RLVRを紹介する。
Soft-RLVRは各プロンプトをアトミック要件のチェックリストに変換し、LSM検証器で項目ごとに候補応答をスコアし、その結果のソフト報酬をトレーニングする。
チェックリストベースの報酬は、スパースパス/フェイル監視をより密集した部分クレディット信号に変換するが、それらはトレードオフも導入している。
我々はこのトレードオフを形式化し、チェックリストに基づく検証が総合的な検証よりも信頼性の高いRLトレーニング信号を与える条件を特定する。
さらに,Soft-SVeRLを導入する。Soft-RLVRの自己検証版である。
自己検証は、過度に許容される自己判断からインフレーションを報いる傾向があり、この崩壊を防ぐために明確な安定化が必要であることを示す。
ルールベースの接地構造評価を備えた制御命令追従設定では、チェックリストベースのSoft-RLVRは、学習された検証者報酬のみを使用して、IFEvalを最大11.1ポイント改善する。
さらに, 検証器の品質とチェックリストの品質が下流RLの結果に影響を及ぼし, 有効自己検証には明確な安定化が不可欠であることを示す。
関連論文リスト
- When Self-Belief Misleads: Active Label Acquisition for Reinforcement Learning with Verifiable Rewards [49.25249414962884]
能動検証リワードを用いた強化学習(RLAVR)を提案する。
RLAVRは、少数のサンプルの接地木ラベルを積極的に取得し、擬似ラベルと統合する。
これに基づいて、RLAVR(CARE)の補正認識信頼性推定を導入する。
論文 参考訳(メタデータ) (2026-05-25T13:55:12Z) - JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR [39.03968285406107]
JURY-RLはラベルのないRLVRフレームワークで、報酬処理から回答提案を分離する。
数学的推論ベンチマークにおいて、ラベルなしのベースラインを一貫して上回る。
Pass@1パフォーマンスは、教師付き地道トレーニングに匹敵する。
論文 参考訳(メタデータ) (2026-04-28T09:29:00Z) - From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Aletheia: What Makes RLVR For Code Verifiers Tick? [51.371034079170435]
Reinforcement Learning from Verifiable Rewards (RLVR)を通じてトレーニングされた検証は、Large Language Model (LLM)ポストトレーニングパイプラインの顕著なフィクスチャである。
コード検証は、実行フィードバックを得るのが難しいシナリオにおいて、モデル出力を判断する上で価値があります。
本稿では,RLVRを用いた検証学習手法の構成要素を検証し,その有効性を検証した。
論文 参考訳(メタデータ) (2026-01-17T22:30:45Z) - Every Question Has Its Own Value: Reinforcement Learning with Explicit Human Values [53.72318444646282]
RLEV(Reinforcement Learning with Explicit Human Values)を提案する。
RLEVは、Large Language Model (LLM) 最適化を直接、定量化された人間の値信号と整合させる。
RLEVは、複数のRLアルゴリズムとモデルスケールで、精度のみのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-10-23T04:15:22Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。