論文の概要: JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
- arxiv url: http://arxiv.org/abs/2604.25419v1
- Date: Tue, 28 Apr 2026 09:29:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.795647
- Title: JURY-RL: Votes Propose, Proofs Dispose for Label-Free RLVR
- Title(参考訳): JURY-RL:投票提案、ラベルなしRLVRの証明
- Authors: Xinjie Chen, Biao Fu, Jing Wu, Guoxin Chen, Xinggao Liu, Dayiheng Liu, Minpeng Liao,
- Abstract要約: JURY-RLはラベルのないRLVRフレームワークで、報酬処理から回答提案を分離する。
数学的推論ベンチマークにおいて、ラベルなしのベースラインを一貫して上回る。
Pass@1パフォーマンスは、教師付き地道トレーニングに匹敵する。
- 参考スコア(独自算出の注目度): 39.03968285406107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with verifiable rewards (RLVR) enhances the reasoning of large language models (LLMs), but standard RLVR often depends on human-annotated answers or carefully curated reward specifications. In machine-checkable domains, label-free alternatives such as majority voting or LLM-as-a-judge remove annotation cost but can introduce false positives that destabilize training. We introduce JURY-RL, a label-free RLVR framework that decouples answer proposal from reward disposal: votes from model rollouts propose a candidate answer, and a formal verifier determines whether that candidate can receive positive reward. Concretely, only rollouts matching the plurality-voted answer are rewarded when that answer is successfully verified in Lean. When verification is inconclusive, we invoke ResZero (Residual-Zero), a fallback reward that discards the unverified plurality proposal and redistributes a zero-mean, variance-preserving signal over the residual answers. This design maintains a stable optimization gradient without reinforcing unverifiable consensus. Across three backbone models trained on mathematical data, JURY-RL consistently outperforms other label-free baselines on mathematical reasoning benchmarks and transfers competitively to code generation and general benchmarks. It attains pass@1 performance comparable to supervised ground-truth training, with superior generalization demonstrated by higher pass@k and response diversity.
- Abstract(参考訳): 検証可能な報酬付き強化学習(RLVR)は、大きな言語モデル(LLM)の推論を強化するが、標準的なRLVRは、しばしば人間による注釈付き回答や、注意深くキュレートされた報酬仕様に依存する。
マシンチェック可能なドメインでは、多数決やLCM-as-a-judgeのようなラベルなしの代替手段はアノテーションのコストを削減できるが、トレーニングを不安定にする偽陽性を導入することができる。
JURY-RLはラベルフリーなRLVRフレームワークで、モデルロールアウトからの票が候補回答を提案し、その候補が肯定的な報酬を受けることができるかどうかを定式検証する。
具体的には、複数の投票された回答に一致するロールアウトだけが、その回答がLeanで成功したときに報われる。
ResZero(Residual-Zero)は、未検証の複数の提案を破棄し、残解上のゼロ平均分散保存信号を再分割するフォールバック報酬である。
この設計は、検証不能なコンセンサスを補強することなく、安定した最適化勾配を維持する。
数学的データに基づいてトレーニングされた3つのバックボーンモデルの中で、JURY-RLは、数学的推論ベンチマークやコード生成や一般的なベンチマークへの競合的な転送において、他のラベルのないベースラインを一貫して上回っている。
教師付き地道トレーニングに匹敵するpass@1パフォーマンスを実現し、より高いpass@kとレスポンスの多様性によって優れた一般化が示される。
関連論文リスト
- From Verifiable Dot to Reward Chain: Harnessing Verifiable Reference-based Rewards for Reinforcement Learning of Open-ended Generation [52.62655622099456]
検証基準ベース報酬(RLVRR)を用いた強化学習を提案する。
最後の答えをチェックする代わりに、RLVRRは高品質な参照(すなわち報酬連鎖)から順序付けられた言語信号を抽出する。
このようにして、RLVRRは報酬を2つの次元に分解する。
論文 参考訳(メタデータ) (2026-01-26T14:39:58Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - RLPR: Extrapolating RLVR to General Domains without Verifiers [103.14103272635893]
本稿では,RLVRを汎用ドメインに外挿するシンプルな検証不要なフレームワークであるRLPRを提案する。
このノイズの多い確率報酬の高分散に対処することが、それを機能させるためには不可欠である。
RLPRはGemma、Llama、Qwenベースのモデルの両方の領域における推論機能の改善を一貫して行っている。
論文 参考訳(メタデータ) (2025-06-23T02:56:36Z) - Reinforcement Learning with Verifiable Rewards Implicitly Incentivizes Correct Reasoning in Base LLMs [35.27561531876348]
本稿では,LLVRを用いた強化学習が大規模言語モデル(LLM)に及ぼす影響を体系的に検討する。
RLVRは数学的タスクとコーディングタスクの両方の推論境界を拡張可能であることを示す。
本稿では,RLVRのインセンティブメカニズムを説明する理論的枠組みについて述べる。
論文 参考訳(メタデータ) (2025-06-17T07:06:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。