論文の概要: CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution
- arxiv url: http://arxiv.org/abs/2603.17775v1
- Date: Wed, 18 Mar 2026 14:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.755686
- Title: CoVerRL: Breaking the Consensus Trap in Label-Free Reasoning via Generator-Verifier Co-Evolution
- Title(参考訳): CoVerRL:ジェネレータ検証共進化によるラベルフリー推論におけるコンセンサストラップの破壊
- Authors: Teng Pan, Yuchen Yan, Zixuan Wang, Ruiqing Zhang, Gaiyang Han, Wanqi Zhang, Weiming Lu, Jun Xiao, Yongliang Shen,
- Abstract要約: CoVerRLは、単一のモデルがジェネレータと検証ロールを交換するフレームワークである。
CoVerRLは、数学的推論ベンチマークにおいて、ラベルなしのベースラインを4.7-5.9%上回ることを示す。
- 参考スコア(独自算出の注目度): 44.548832575638805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Label-free reinforcement learning enables large language models to improve reasoning capabilities without ground-truth supervision, typically by treating majority-voted answers as pseudo-labels. However, we identify a critical failure mode: as training maximizes self-consistency, output diversity collapses, causing the model to confidently reinforce systematic errors that evade detection. We term this the consensus trap. To escape it, we propose CoVerRL, a framework where a single model alternates between generator and verifier roles, with each capability bootstrapping the other. Majority voting provides noisy but informative supervision for training the verifier, while the improving verifier progressively filters self-consistent errors from pseudo-labels. This co-evolution creates a virtuous cycle that maintains high reward accuracy throughout training. Experiments across Qwen and Llama model families demonstrate that CoVerRL outperforms label-free baselines by 4.7-5.9\% on mathematical reasoning benchmarks. Moreover, self-verification accuracy improves from around 55\% to over 85\%, confirming that both capabilities genuinely co-evolve.
- Abstract(参考訳): ラベルなし強化学習は、大言語モデルにおいて、大文字で書かれた回答を擬似ラベルとして扱うことにより、地道な監督なしに推論能力を向上させることができる。
しかし、トレーニングが自己整合性を最大化するにつれて、出力の多様性が崩壊し、モデルが検出を回避するための系統的なエラーを確実に補強する。
これをコンセンサストラップと呼びます。
これを避けるために,1つのモデルがジェネレータと検証役を交互に切り替えるフレームワークであるCoVerRLを提案する。
多数決投票は、検証器を訓練するための騒々しいが情報的な監督を提供する一方、改善された検証器は、疑似ラベルから自己一貫性のある誤りを徐々にフィルタリングする。
この共進化は、トレーニングを通して高い報酬の正確さを維持する、活発なサイクルを生み出します。
Qwen と Llama のモデルファミリーでの実験では、CoVerRL は数理推論ベンチマークで4.7-5.9 % のラベルなしベースラインを上回っている。
さらに、自己検証の精度は55\%から85\%以上に向上し、両方の能力が真に共存することを確認した。
関連論文リスト
- CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - Hybrid Reinforcement: When Reward Is Sparse, It's Better to Be Dense [36.71358559780692]
HEROは、検証者信号と報酬モデルスコアを構造化された方法で統合する強化学習フレームワークである。
HEROはRMのみのベースラインと検証者のみのベースラインを一貫して上回り、検証可能なタスクと検証しにくいタスクの両方で大きな利益を上げている。
論文 参考訳(メタデータ) (2025-10-08T17:09:41Z) - RESTRAIN: From Spurious Votes to Signals -- Self-Driven RL with Self-Penalization [52.01526898310723]
私たちは、ゴールドラベルの欠如を有用な学習信号に変換する自己金型RLフレームワークであるRESTRAINを紹介します。
多数決を急ぐために過剰にコミットする代わりに、RESTRAINは、モデルの全回答分布からのシグナルを利用する。
挑戦的な推論ベンチマークでは、RESTRAINはラベルのないデータのみを使用して大きなゲインを提供する。
論文 参考訳(メタデータ) (2025-10-02T16:24:01Z) - Co-rewarding: Stable Self-supervised RL for Eliciting Reasoning in Large Language Models [56.055015597319674]
検証可能な報酬(RLVR)を用いた強化学習は,大規模言語モデル(LLM)の推論能力の向上に有効である
近年の自己回帰法は LLM の推論能力を解き放つためのラベルフリーな代替手段について検討している。
我々は、他の視点から補完的な監督を求めることにより、トレーニングの安定性を向上させる新しい自己監督型RLフレームワークであるtextitCo-rewardingを提案する。
論文 参考訳(メタデータ) (2025-08-01T08:09:14Z) - Can Large Reasoning Models Self-Train? [51.0277533541394]
多数決投票を簡単な自己フィードバック機構として利用し、強化学習において自己学習が持続できるかどうかを検討する。
この基本的なアプローチは、モデルの推論性能だけでなく、次のRLイテレーションでより良い品質フィードバックを生成する能力も改善します。
しかし、我々の分析では、このような自己学習パラダイムの限界も明らかにしています - 自己回帰の長いRLは、報酬のハッキングにつながるため、突然、そして完全なパフォーマンスが崩壊します。
論文 参考訳(メタデータ) (2025-05-27T17:16:00Z) - Latent Veracity Inference for Identifying Errors in Stepwise Reasoning [78.29317733206643]
本稿では、精度割当てに対する離散探索アルゴリズムであるVeracity Search(VS)を紹介する。
その他の方法では、後続の精度値よりも後続の分布において難解な推論を行う。
VSを一般化し、新しいコンテキストで正確なゼロショットの精度推論を可能にする。
論文 参考訳(メタデータ) (2025-05-17T04:16:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。