論文の概要: Rate or Fate? RLV$^\varepsilon$R: Reinforcement Learning with Verifiable Noisy Rewards
- arxiv url: http://arxiv.org/abs/2601.04411v1
- Date: Wed, 07 Jan 2026 21:31:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:52.93524
- Title: Rate or Fate? RLV$^\varepsilon$R: Reinforcement Learning with Verifiable Noisy Rewards
- Title(参考訳): RLV$^\varepsilon$R:Reinforcement Learning with Verifiable Noisy Rewards
- Authors: Ali Rad, Khashayar Filom, Darioush Keivan, Peyman Mohajerin Esfahani, Ehsan Kamalinejad,
- Abstract要約: 検証可能な報酬を伴う強化学習(RLVR)は、LLMを訓練するための単純だが強力なパラダイムである。
しかし実際には、検証器はほとんど決してクリーンユニットテストではなく、限られたコーナーケースのみを探索する。
検証ノイズは単に学習(レート)を遅くするだけなのか、それとも結果(フィート)を覆すことができるのか?
- 参考スコア(独自算出の注目度): 2.0987013818856877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) is a simple but powerful paradigm for training LLMs: sample a completion, verify it, and update. In practice, however, the verifier is almost never clean--unit tests probe only limited corner cases; human and synthetic labels are imperfect; and LLM judges (e.g., RLAIF) are noisy and can be exploited--and this problem worsens on harder domains (especially coding) where tests are sparse and increasingly model-generated. We ask a pragmatic question: does the verification noise merely slow down the learning (rate), or can it flip the outcome (fate)? To address this, we develop an analytically tractable multi-armed bandit view of RLVR dynamics, instantiated with GRPO and validated in controlled experiments. Modeling false positives and false negatives and grouping completions into recurring reasoning modes yields a replicator-style (natural-selection) flow on the probability simplex. The dynamics decouples into within-correct-mode competition and a one-dimensional evolution for the mass on incorrect modes, whose drift is determined solely by Youden's index J=TPR-FPR. This yields a sharp phase transition: when J>0, the incorrect mass is driven toward extinction (learning); when J=0, the process is neutral; and when J<0, incorrect modes amplify until they dominate (anti-learning and collapse). In the learning regime J>0, noise primarily rescales convergence time ("rate, not fate"). Experiments on verifiable programming tasks under synthetic noise reproduce the predicted J=0 boundary. Beyond noise, the framework offers a general lens for analyzing RLVR stability, convergence, and algorithmic interventions.
- Abstract(参考訳): 検証可能な報酬(RLVR)による強化学習は、LLMをトレーニングするためのシンプルだが強力なパラダイムである。
人間のラベルと合成ラベルは不完全であり、LCMの審査員(例えばRLAIF)は騒々しく、悪用されうる。
検証ノイズは単に学習(レート)を遅くするだけなのか、それとも結果(フィート)を覆すことができるのか?
そこで本研究では, GRPOでインスタンス化され, 制御実験で検証されたRLVRダイナミックスのマルチアームバンディットビューを開発した。
偽陽性と偽陰性とグループ化完了を繰り返し推論モードにモデル化すると、確率単純点上の複製子型(自然選択)フローが得られる。
力学は、ユーデンの指数 J=TPR-FPR でのみ決定される不正確なモード上の質量に対して、正しいモード内での競合と1次元の進化に分離する。
これは鋭い相転移をもたらす: J>0 の場合、誤った質量が絶滅(学習)に向かって駆動され、J=0 の場合、過程は中立であり、J<0 の場合、不正確なモードは支配(反学習と崩壊)まで増幅される。
学習体制J>0では、ノイズは主に収束時間("rate, not fate")を再スケールする。
合成雑音下での検証可能なプログラミングタスクの実験は、予測されたJ=0境界を再現する。
ノイズ以外にも、このフレームワークはRLVRの安定性、収束性、アルゴリズムの介入を分析するための一般的なレンズを提供する。
関連論文リスト
- Soundness-Aware Level: A Microscopic Signature that Predicts LLM Reasoning Potential [27.552392596027588]
検証可能な報酬(RLVR)による強化学習は、大規模言語モデル(LLM)において強い推論をもたらす。
私たちの重要な発見は、高ポテンシャルモデルが本質的に音質に敏感であることです。
本稿では,これらの分布の分離を測定するためにJensen-Shannon Divergence を用いた顕微鏡計測法である Soundness-Aware Level (SAL) を紹介する。
論文 参考訳(メタデータ) (2025-10-17T00:52:00Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Class Imbalance in Anomaly Detection: Learning from an Exactly Solvable Model [0.0]
クラス不均衡(CI)は、機械学習における長年の問題であり、トレーニングを遅くし、パフォーマンスを低下させる。
CIを分析し、解釈し、対処するための理論的フレームワークを提供する。
このフレームワーク内では、固有の、トレーニングまたはテストの不均衡という、CIの複数のソースを区別することができる。
論文 参考訳(メタデータ) (2025-01-20T18:12:59Z) - Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - An Efficient Tester-Learner for Halfspaces [13.13131953359806]
本稿では、Rubinfeld と Vasilyan が最近定義したテスト可能な学習モデルにおいて、ハーフスペースを学習するための最初の効率的なアルゴリズムを提案する(2023)。
このモデルでは、学習者は、トレーニングセットがテストに合格するたびに、その出力仮説の精度がほぼ最適であると認定する。
論文 参考訳(メタデータ) (2023-02-28T18:51:55Z) - Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels [56.81761908354718]
雑音ラベルを用いた学習のための,理論的に保証されたクリーンサンプル選択フレームワークを提案する。
Knockoffs-SPRは、標準的な教師付きトレーニングパイプラインのサンプル選択モジュールと見なすことができる。
さらに、ラベルなしデータとしてノイズデータのサポートを利用する半教師付きアルゴリズムと組み合わせる。
論文 参考訳(メタデータ) (2023-01-02T07:13:28Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。