論文の概要: An Imperfect Verifier is Good Enough: Learning with Noisy Rewards
- arxiv url: http://arxiv.org/abs/2604.07666v1
- Date: Thu, 09 Apr 2026 00:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.608879
- Title: An Imperfect Verifier is Good Enough: Learning with Noisy Rewards
- Title(参考訳): 不完全検証は十分である:ノイズリワードによる学習
- Authors: Andreas Plesner, Francisco Guzmán, Anish Athalye,
- Abstract要約: RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)のポストトレーニング方法として注目されている。
RLVRがそのようなノイズに対して頑健である程度と、効果的なトレーニングに必要な検証精度は未解決のままである。
RLトレーニングにノイズを導入することで,コード生成と科学的推論の領域におけるこれらの疑問について検討する。
- 参考スコア(独自算出の注目度): 4.493881508510229
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a prominent method for post-training Large Language Models (LLMs). However, verifiers are rarely error-free; even deterministic checks can be inaccurate, and the growing dependence on model-based judges exacerbates the issue. The extent to which RLVR is robust to such noise and the verifier accuracy required for effective training remain unresolved questions. We investigate these questions in the domains of code generation and scientific reasoning by introducing noise into RL training. Noise rates up to 15% yield peak validation accuracy within 2 percentage points of the clean baseline. These findings are consistent across controlled and model-based noise types, three model families (Qwen3, GLM4, Llama 3.1), and model sizes from 4B to 9B. Overall, the results indicate that imperfect verification does not constitute a fundamental barrier to RLVR. Furthermore, our findings suggest that practitioners should prioritize moderate accuracy with high precision over perfect verification.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) は,Large Language Models (LLM) のポストトレーニングにおける重要な手法となっている。
しかし、検証はエラーのないことはめったになく、決定論的チェックでさえ不正確であり、モデルに基づく判断への依存が増すことで問題はさらに悪化する。
RLVRがそのようなノイズに対して頑健である程度と、効果的なトレーニングに必要な検証精度は未解決のままである。
RLトレーニングにノイズを導入することで,コード生成と科学的推論の領域におけるこれらの疑問について検討する。
ノイズレートが15%に達すると、クリーンベースラインの2ポイント以内のピーク検証精度が得られる。
これらの結果は, 制御型およびモデルベースノイズタイプ, 3つのモデルファミリー(Qwen3, GLM4, Llama 3.1)と4Bから9Bのモデルサイズで一致している。
その結果,不完全検証はRLVRの基本的な障壁にはならないことが明らかとなった。
さらに, 完全検証よりも高い精度で適度な精度を優先すべきであることが示唆された。
関連論文リスト
- Noisy Data is Destructive to Reinforcement Learning with Verifiable Rewards [9.797159765512236]
検証可能な報酬付き強化学習(RLVR)は、様々な領域にわたる大規模言語モデルの最近の能力向上を促している。
近年の研究では、改良されたRLVRアルゴリズムにより、間違ったアノテーションからモデルが効果的に学習できることが示唆されている。
100%ノイズのあるトレーニングデータがクリーンなデータで"汚染"されているため,これらの結果は無効であることを示す。
論文 参考訳(メタデータ) (2026-03-17T05:48:32Z) - PRIME: A Process-Outcome Alignment Benchmark for Verifiable Reasoning in Mathematics and Engineering [71.15346406323827]
本稿では,プロセス・アウトカム・アライメント・アライメント・検証における検証結果を評価するベンチマークであるPRIMEを紹介する。
現在の検証器は、しばしば導出欠陥を検出するのに失敗する。
本稿では,PRIMEで選択した検証手法を利用したプロセス認識型RLVRトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2026-02-12T04:45:01Z) - JudgeRLVR: Judge First, Generate Second for Efficient Reasoning [20.448286296459344]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデルにおける推論の標準パラダイムとなっている。
本稿では,識別能力が効率的な生成の前提条件であると主張している。
本稿では,2段階の審査理論であるジャッジRLVRを提案する。
論文 参考訳(メタデータ) (2026-01-13T11:47:42Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Position: The Hidden Costs and Measurement Gaps of Reinforcement Learning with Verifiable Rewards [110.47944672736723]
我々は、RLVR税、評価落とし穴、データ汚染という3つの力によって利回りが過大評価されることが多いと論じている。
本稿では, 精度, グラウンド, キャリブレーションを両立させる税意識訓練・評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-09-26T05:06:25Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - From Accuracy to Robustness: A Study of Rule- and Model-based Verifiers in Mathematical Reasoning [41.02508512078575]
数理推論をケーススタディとして、静的評価とRLトレーニングのシナリオの両方において、様々な検証を包括的に分析する。
まず、現在のオープンソースルールベースの検証器は、異なるフォーマットで提示された同等の回答を認識できないことが多く、無視できない偽陰性率をもたらす。
これらの制約に対処するための潜在的な解決策としてモデルベース検証について検討する。
論文 参考訳(メタデータ) (2025-05-28T10:28:41Z) - Reinforcement Learning for Reasoning in Large Language Models with One Training Example [117.86853102104256]
1つのトレーニング例(1ショットRLVR)を用いた強化学習は,大規模言語モデル(LLM)の算数推論能力の向上に有効であることを示す。
1ショットRLVRにおける興味深い現象として、クロスカテゴリの一般化、自己回帰の頻度の増加、テスト性能の向上の持続などを挙げる。
論文 参考訳(メタデータ) (2025-04-29T09:24:30Z) - Robustness of Accuracy Metric and its Inspirations in Learning with
Noisy Labels [51.66448070984615]
十分な数の雑音サンプルに対してトレーニング精度を最大化すると,ほぼ最適な分類器が得られることを示す。
検証のために、ノイズの多い検証セットが信頼できることを証明し、モデル選択のクリティカルな要求に対処する。
理論結果に動機づけられて,ノイズラベルをトレーニングしたモデルの特徴付けを行い,ノイズ検証セットの有用性を検証する。
論文 参考訳(メタデータ) (2020-12-08T03:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。