論文の概要: Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers
- arxiv url: http://arxiv.org/abs/2509.23152v1
- Date: Sat, 27 Sep 2025 06:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.071684
- Title: Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers
- Title(参考訳): RL-Trained Verifiersによる正確なテスト時間スケーリング
- Authors: Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Yiwei Wang, Xiaodan Liang, Jing Tang,
- Abstract要約: ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
- 参考スコア(独自算出の注目度): 63.99316853136304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling via solution sampling and aggregation has become a key paradigm for improving the reasoning performance of Large Language Models (LLMs). While reward model selection is commonly employed in this approach, it often fails to identify minority-yet-correct answers, which limits its effectiveness beyond that of simple majority voting. We argue that this limitation stems from a lack of informative critique signals during verifier training. To bridge this gap, we introduce Mirror-Critique, a framework that trains a verifier with informative critiques. Our key insight is to leverage the rich critique signal by contrasting model-generated solutions with ground-truth solutions. We deploy a small instruction-tuned model to synthesize high-quality critique data with rejection sampling that teaches the verifier not only what is wrong, but also why. The synthetic data is used to cold-start the LLMs in the RLVR process to further improve the verification ability. The resulting Mirror-Verifier is deployed to evaluate candidate solutions by generating multiple critiques per solution, aggregating them into a verify score used for weighted voting or selective abstention. The experimental results show that our Mirror-Verifier significantly outperforms majority voting in terms of solution accuracy and also improves the solver's honesty to recognize and abstain from answering beyond its capability boundaries.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論性能を改善する上で,ソリューションサンプリングと集約によるテスト時間のスケーリングが重要なパラダイムとなっている。
報酬モデル選択はこのアプローチで一般的に採用されているが、少数派で不正な回答を特定することはしばしば失敗し、単純な多数決以上の効果を制限している。
この制限は、検証者訓練中に情報的批判信号が欠如していることに起因していると我々は主張する。
このギャップを埋めるために、情報的批判で検証者を訓練するフレームワークであるMirror-Critiqueを紹介します。
我々の重要な洞察は、モデル生成した解と接地真実解とを対比することにより、リッチな批判信号を活用することである。
提案手法は, 誤りだけでなく, 理由を検証者に対して教える, 拒否サンプリングによる高品質な批判データを合成するために, 小さな命令調整モデルを配置する。
合成データは、RLVRプロセスにおけるLCMの冷間開始に使用され、検証能力をさらに向上する。
結果として得られるミラー検証は、ソリューションごとに複数の批評を生成し、それらを重み付けされた投票や選択的棄権に使用する検証スコアに集約することで、候補ソリューションを評価するためにデプロイされる。
実験結果から,ミラー検証は解解の精度において多数決を著しく上回り,解答者の正当性も向上し,解答の能力境界を超えて解答の正当性も向上することが示された。
関連論文リスト
- TinyV: Reducing False Negatives in Verification Improves RL for LLM Reasoning [11.573904453859098]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力を高める強力なツールとなった。
しかし、RLの成功は、検証者によって提供される報酬の信頼性に依存している。
本稿では, 正のモデル出力を誤って拒否する不適切な負の問題を公開し, 解析する。
既存のルールベースの手法を拡張する軽量なLCMベースの検証器である littleV を提案する。
論文 参考訳(メタデータ) (2025-05-20T17:16:44Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Rationale-Aware Answer Verification by Pairwise Self-Evaluation [11.763229353978321]
信頼性のある検証器の訓練には,最終回答の正しさに加えて,有理数の有効性の確保が必要であることを示す。
本結果から, 信頼性検証には, 正解の正確性に加えて, 有理数の有効性の確保が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T08:53:00Z) - Small Language Models Need Strong Verifiers to Self-Correct Reasoning [69.94251699982388]
大規模言語モデル(LLM)の推論性能を高めるための有望なソリューションとして自己補正が登場した。
この研究は、小さい(=13B)言語モデル(LM)が、より強いLMから最小の入力で推論タスクを自己補正できるかどうかを考察する。
論文 参考訳(メタデータ) (2024-04-26T03:41:28Z) - V-STaR: Training Verifiers for Self-Taught Reasoners [71.53113558733227]
V-STaR はモデル生成解の正しさを判断する DPO を用いて検証器を訓練する。
複数のイテレーションでV-STaRを実行すると、徐々により良い推論器と検証器が得られる。
論文 参考訳(メタデータ) (2024-02-09T15:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。