論文の概要: When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers
- arxiv url: http://arxiv.org/abs/2512.02304v1
- Date: Tue, 02 Dec 2025 00:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.667431
- Title: When Does Verification Pay Off? A Closer Look at LLMs as Solution Verifiers
- Title(参考訳): 検証はいつ有効になるのか? LLMをソリューション検証としてよりよく見る
- Authors: Jack Lu, Ryan Teehan, Jinran Jin, Mengye Ren,
- Abstract要約: 本稿では,37大言語モデル(LLM)の体系的研究について述べる。
自己検証と同一家族内および異なる家族間での検証を比較した。
検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
- 参考スコア(独自算出の注目度): 11.937771430269201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can act as both problem solvers and solution verifiers, with verifiers improving solver performance by selecting high-quality answers from a pool of candidates. However, prior studies of solver-verifier interactions have been limited, focusing mainly on self-verification and rarely examining how verifiers judge outputs from models in their own or in another model family. Modern LLMs also undergo extensive post-training, but its effect on verification remains unclear. We present a systematic study across 37 models spanning multiple families, sizes, and base vs. post-trained variants, evaluated on 9 benchmarks covering logical reasoning, structured puzzles, symbolic computation, mathematics, commonsense, factual recall, and domain knowledge. We compare self-verification with verification within the same family and across different families. To support this, we introduce and empirically validate verifier gain, a metric that predicts the performance improvements from test-time verifier-based rejection sampling. We analyze how metrics like verifier gain and false positive rate scale with model size and post-training, and characterize differences in dataset verifiability. Our findings show that cross-family verification is especially effective; post-training reduces self-improvement but strengthens cross-family improvement; and mathematical and logical tasks exhibit the highest inherent verifiability.
- Abstract(参考訳): 大規模言語モデル (LLM) は問題解法と解検証器の両方として機能し、検証器は候補プールから高品質な答えを選択することで解法性能を向上させる。
しかし、解法と検証器の相互作用に関する先行研究は、主に自己検証に焦点をあて、検証器が自身のモデルや別のモデルファミリーから出力をどう判断するかを調査することは滅多にない。
現代のLSMも大規模なポストトレーニングを行っているが、検証への影響は未定である。
本稿では, 論理的推論, 構造化パズル, 記号計算, 数学, コモンセンス, ファクトリコール, ドメイン知識を対象とする9つのベンチマークで評価した。
自己検証と同一家族内および異なる家族間での検証を比較した。
これをサポートするために、テスト時間検証に基づく拒否サンプリングから性能改善を予測する指標である検証器ゲインを導入、実証的に検証する。
検証者ゲインや偽陽性率尺度などのメトリクスをモデルサイズと後トレーニングで分析し,データセットの妥当性の違いを特徴付ける。
本研究は,家族間検証が特に有効であること,自己改善は抑制されるが,家族間改善が促進されること,数学的・論理的タスクが最も本質的な妥当性を示すことが示唆された。
関連論文リスト
- Scaling Generative Verifiers For Natural Language Mathematical Proof Verification And Selection [42.21636315733425]
大規模言語モデルは、最終解答問題において顕著な成功を収めた。
しかし、これらのソリューションの根底にある理由はしばしば欠陥がある。
モデル性能のより信頼性の高い尺度を得るために,証明ベースと最終回答推論の両方を評価した。
論文 参考訳(メタデータ) (2025-11-17T06:25:35Z) - Verifying Large Language Models' Reasoning Paths via Correlation Matrix Rank [71.09032766271493]
大規模言語モデル (LLM) は誤りや幻覚を引き起こす傾向がある。
アウトプットを効果的かつ効率的にチェックする方法は、アプリケーションにとって重要な問題となっている。
論文 参考訳(メタデータ) (2025-10-28T11:01:10Z) - Critique to Verify: Accurate and Honest Test-Time Scaling with RL-Trained Verifiers [63.99316853136304]
ミラー・クリティク(Mirror-Critique)は、情報的批評で検証者を訓練する枠組みである。
我々は、高品質な批判データを合成するために、小さな命令調整モデルを展開する。
結果として得られるミラー検証は、ソリューション毎に複数の批判を生成することで、候補ソリューションを評価するためにデプロイされる。
論文 参考訳(メタデータ) (2025-09-27T06:50:24Z) - Verification Limits Code LLM Training [23.67882363039948]
コード生成のための大規模言語モデルは、問題解と検証テストの両方がモデルによって生成される合成データにますます依存している。
本研究では,検証設計と戦略がモデル性能に与える影響について検討する。
論文 参考訳(メタデータ) (2025-09-25T07:23:30Z) - Variation in Verification: Understanding Verification Dynamics in Large Language Models [43.829778623942275]
本稿では、連鎖推論を生成して検証を行い、次いで二項判定を行う生成検証器について検討する。
実験の結果,有効性に関する3つの重要な知見が得られた。
論文 参考訳(メタデータ) (2025-09-22T16:36:56Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier [18.771754895027616]
Policy as Generative Verifier (PAG) は、政策と検証役を交互に交互に行うことで、大規模言語モデルに自己修正の権限を与えるフレームワークである。
モデル崩壊を緩和し、推論能力と検証能力の両方を共同で強化する。
論文 参考訳(メタデータ) (2025-06-12T06:59:35Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。