論文の概要: Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR
- arxiv url: http://arxiv.org/abs/2605.02909v1
- Date: Mon, 06 Apr 2026 15:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.508551
- Title: Delay, Plateau, or Collapse: Evaluating the Impact of Systematic Verification Error on RLVR
- Title(参考訳): 遅延, プラトー, 崩壊 - RLVRにおけるシステム検証誤差の影響の評価-
- Authors: Kazuki Egashira, Mark Vero, Jasper Dekoninck, Florian E. Dorner, Robin Staab, Martin Vechev,
- Abstract要約: 検証リワード(RLVR)を用いた強化学習における系統的検証誤差の影響について検討する。
その結果,従来の結論とは対照的に,現実的な検証誤差はRLVRの結果を批判的に形作ることができた。
- 参考スコア(独自算出の注目度): 23.784808278172164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has become a powerful approach for improving the reasoning capabilities of large language models (LLMs). While RLVR is designed for tasks with verifiable ground-truth answers, real-world verifiers (e.g., static code checkers) can introduce errors into the reward signal. Prior analyses have largely treated such errors as random and independent across samples, concluding that errors merely slow training with limited effect on final performance. However, practical verifiers tend to exhibit systematic errors. This introduces a risk of models learning unwanted consistent behavior from a structurally incorrect reward signal. In this work, we study the impact of such systematic verification errors on RLVR. Through controlled experiments on arithmetic tasks, we show that systematic false negatives lead to similar effects as random noise. On the other hand, systematic false positives can cause a wide range of behaviors from sub-optimal plateaus to performance collapse. Crucially, these outcomes are not determined by the overall error rate but by the specific pattern of introduced errors, making pre-hoc mitigation difficult. Our results show that, in contrast to prior conclusions, realistic verification errors can critically shape RLVR outcomes and that verifier quality has to be understood beyond its sample-level error rate.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
RLVRは、実世界の検証者(例えば、静的コードチェッカー)は報酬信号にエラーを導入することができる。
以前の分析では、サンプル間でランダムなエラーや独立なエラーが主に扱われており、最終的なパフォーマンスに限定した影響で、エラーはトレーニングを遅くするだけである、と結論付けている。
しかし、実際的な検証は体系的な誤りを示す傾向がある。
これにより、構造的に誤った報酬信号から不要な一貫した振る舞いを学ぶモデルのリスクが生じる。
本研究では,RLVRにおけるこのような系統的検証誤差の影響について検討する。
算術的タスクの制御実験を通して、体系的な偽陰性がランダムノイズと同じような効果をもたらすことを示す。
一方、系統的な偽陽性は、準最適台地から性能崩壊まで幅広い行動を引き起こす可能性がある。
重要なことに、これらの結果は全体的なエラー率ではなく、導入されたエラーの特定のパターンによって決定される。
以上の結果から,従来の結論とは対照的に,現実的な検証誤差はRLVRの結果を批判的に形作ることが可能であり,検証精度はサンプルレベルの誤り率を超えて理解する必要があることが示唆された。
関連論文リスト
- An Imperfect Verifier is Good Enough: Learning with Noisy Rewards [4.493881508510229]
RLVR(Reinforcement Learning with Verifiable Rewards)は,Large Language Models(LLMs)のポストトレーニング方法として注目されている。
RLVRがそのようなノイズに対して頑健である程度と、効果的なトレーニングに必要な検証精度は未解決のままである。
RLトレーニングにノイズを導入することで,コード生成と科学的推論の領域におけるこれらの疑問について検討する。
論文 参考訳(メタデータ) (2026-04-09T00:15:01Z) - Decoding the Critique Mechanism in Large Reasoning Models [50.821607345799386]
大規模推論モデル(LRM)は、バックトラックと自己検証メカニズムを示し、中間ステップを修正して正しい解に到達できるようにする。
中間推論ステップに算術ミスを挿入することにより,現在のLEMがエラーからどのように回復するかを検討する。
チェーン・オブ・シークレットを伝播する誤りにもかかわらず、モデルは依然として正しい最終解に達している。
論文 参考訳(メタデータ) (2026-03-17T10:03:30Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Hard Samples, Bad Labels: Robust Loss Functions That Know When to Back Off [1.1582652820340928]
間違ったラベル付けされたトレーニングデータは、教師付き学習によって訓練されたモデルの性能と一般化性に悪影響を及ぼす。
そこで我々はBlurry Loss と Piecewise-zero Loss という2つの新しい損失関数を評価した。
論文 参考訳(メタデータ) (2025-11-20T16:30:55Z) - Stress-Testing ML Pipelines with Adversarial Data Corruption [11.91482648083998]
規制当局は現在、ハイテイクシステムは現実的で相互依存的なエラーに耐えられるという証拠を要求している。
SAVAGEは依存性グラフとフレキシブルな汚いテンプレートを通じて、データ品質の問題を正式にモデル化するフレームワークです。
Savanageは、脆弱性のあるデータサブポピュレーションと微調整による汚職の深刻度を効率的に識別するために、双方向の最適化アプローチを採用している。
論文 参考訳(メタデータ) (2025-06-02T00:41:24Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Fast and Accurate Error Simulation for CNNs against Soft Errors [64.54260986994163]
本稿では,誤りシミュレーションエンジンを用いて,コナールニューラルネットワーク(CNN)の信頼性解析のためのフレームワークを提案する。
これらの誤差モデルは、故障によって誘導されるCNN演算子の出力の破損パターンに基づいて定義される。
提案手法は,SASSIFIの欠陥効果の約99%の精度と,限定的なエラーモデルのみを実装した44倍から63倍までのスピードアップを実現する。
論文 参考訳(メタデータ) (2022-06-04T19:45:02Z) - Learn what you can't learn: Regularized Ensembles for Transductive
Out-of-distribution Detection [76.39067237772286]
ニューラルネットワークの現在のアウト・オブ・ディストリビューション(OOD)検出アルゴリズムは,様々なOOD検出シナリオにおいて不満足な結果をもたらすことを示す。
本稿では,テストデータのバッチを観察した後に検出方法を調整することで,このような「ハード」なOODシナリオがいかに有用かを検討する。
本稿では,テストデータと正規化に人工ラベリング手法を用いて,テストバッチ内のOODサンプルに対してのみ矛盾予測を生成するモデルのアンサンブルを求める手法を提案する。
論文 参考訳(メタデータ) (2020-12-10T16:55:13Z) - FaultFace: Deep Convolutional Generative Adversarial Network (DCGAN)
based Ball-Bearing Failure Detection Method [4.543665832042712]
本稿では,回転軸用ボールベアリング接合部の故障検出のためのFaultFace法を提案する。
Deep Convolutional Generative Adversarial Networkは、バランスの取れたデータセットを得るために、名目と失敗の振る舞いの新しいフェイスポートを作成するために使用される。
論文 参考訳(メタデータ) (2020-07-30T06:37:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。