論文の概要: Quantifying Empirical Compute-Supervision Tradeoffs in RLVR
- arxiv url: http://arxiv.org/abs/2605.25252v2
- Date: Wed, 27 May 2026 02:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.982826
- Title: Quantifying Empirical Compute-Supervision Tradeoffs in RLVR
- Title(参考訳): RLVRにおける実証計算-スーパービジョントレードオフの定量化
- Authors: Ryo Mitsuhashi, Patrick Chen, Isabelle Tseng, Jasin Cekinmez, Addison J. Wu,
- Abstract要約: 最近の理論的研究は、検証器のノイズが学習率に影響を与えるが最終的な結果には影響しないと予測している。
我々は,GSM8K上でGRPOを用いてQwen2.5 (0.5B,1.5B) の訓練後,この予測を実証的に検証した。
偽陰性が偽陽性よりも単調に性能を低下させる構造的非対称性が見つかる。
- 参考スコア(独自算出の注目度): 0.15845117761091052
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) has become a standard paradigm for post-training language models, but in practice, verifiers are rarely perfect. Recent theoretical work predicts that verifier noise affects the rate of learning but not its final outcome, implying that sufficient compute should close any gap induced by imperfect supervision. We test this prediction empirically by post-training Qwen2.5 (0.5B, 1.5B) with GRPO on GSM8K while injecting controlled false-positive and false-negative noise into the binary correctness signal, and varying rollouts per prompt as a compute axis. In practice, the gap in validation accuracy persists under substantial compute scaling, with returns to compute that are sharply diminishing. We further find a structural asymmetry where false negatives monotonically degrade performance more quickly than false positives. These findings suggest verifier quality and training compute are not interchangeable, and that reducing false negatives is a more effective lever than scaling compute alone.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、訓練後の言語モデルの標準パラダイムとなっているが、実際、検証が完璧であることは滅多にない。
最近の理論的研究は、検証器のノイズが学習速度に影響を与えるが最終的な結果には影響しないと予測しており、十分な計算が不完全な監督によって引き起こされるギャップを埋めるべきであることを示している。
我々は,GSM8K上でGRPOを用いてQwen2.5(0.5B,1.5B)を後処理し,制御された偽陽性および偽陰性ノイズを二乗補正信号に注入し,各プロンプト毎のロールアウトを演算軸として変化させることにより,この予測を実証的に検証した。
実際には、バリデーションの精度のギャップは相当な計算スケーリングの下で持続し、計算へのリターンは急激に減少している。
さらに、偽陰性が偽陽性よりも単調に性能を低下させる構造的非対称性を見いだす。
これらの結果から,検証器の品質とトレーニング計算は交換不可能であり,偽陰性の低減は計算のみをスケールするよりも有効なレバーであることが示唆された。
関連論文リスト
- Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty [59.97939500426759]
本稿ではRLCRについて述べる。RLCRは精度と信頼性を共同で向上する推論モデルを訓練する手法である。
多様なデータセット間で、RLCRは精度を損なうことなくキャリブレーションを大幅に改善することを示す。
また,言語的信頼度をテスト時に活用し,精度とキャリブレーションを向上させることも実証した。
論文 参考訳(メタデータ) (2025-07-22T17:56:01Z) - ROC-n-reroll: How verifier imperfection affects test-time scaling [23.16719763215363]
テストタイムスケーリングは、推論中に追加の計算を活用することで、言語モデルのパフォーマンスを向上させることを目的としている。
BoNとRSは、テストタイムのスケーリングを可能にする検証器を使用するテクニックである。
これらの手法のインスタンスレベルの精度は, 検証器のROC曲線の幾何学的に特徴付けられる。
論文 参考訳(メタデータ) (2025-07-16T16:44:29Z) - Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [85.85160896547698]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
入力にノイズ注入を頼りに、認証された半径を持つ効率的な分類器を設計する方法を示す。
新たな認証手法により、ランダムな平滑化による事前学習モデルの使用が可能となり、ゼロショット方式で現在の認証半径を効果的に改善できる。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。