論文の概要: Variation in Verification: Understanding Verification Dynamics in Large Language Models
- arxiv url: http://arxiv.org/abs/2509.17995v1
- Date: Mon, 22 Sep 2025 16:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.507326
- Title: Variation in Verification: Understanding Verification Dynamics in Large Language Models
- Title(参考訳): 検証のバリエーション:大規模言語モデルにおける検証ダイナミクスの理解
- Authors: Yefan Zhou, Austin Xu, Yilun Zhou, Janvijay Singh, Jiang Gui, Shafiq Joty,
- Abstract要約: 本稿では、連鎖推論を生成して検証を行い、次いで二項判定を行う生成検証器について検討する。
実験の結果,有効性に関する3つの重要な知見が得られた。
- 参考スコア(独自算出の注目度): 43.829778623942275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances have shown that scaling test-time computation enables large language models (LLMs) to solve increasingly complex problems across diverse domains. One effective paradigm for test-time scaling (TTS) involves LLM generators producing multiple solution candidates, with LLM verifiers assessing the correctness of these candidates without reference answers. In this paper, we study generative verifiers, which perform verification by generating chain-of-thought (CoT) reasoning followed by a binary verdict. We systematically analyze verification dynamics across three dimensions - problem difficulty, generator capability, and verifier generation capability - with empirical studies on 12 benchmarks across mathematical reasoning, knowledge, and natural language reasoning tasks using 14 open-source models (2B to 72B parameter range) and GPT-4o. Our experiments reveal three key findings about verification effectiveness: (1) Easy problems allow verifiers to more reliably certify correct responses; (2) Weak generators produce errors that are easier to detect than strong generators; (3) Verification ability is generally correlated with the verifier's own problem-solving capability, but this relationship varies with problem difficulty. These findings reveal opportunities to optimize basic verification strategies in TTS applications. First, given the same verifier, some weak generators can nearly match stronger ones in post-verification TTS performance (e.g., the Gemma2-9B to Gemma2-27B performance gap shrinks by 75.5%). Second, we identify cases where strong verifiers offer limited advantage over weak ones, as both fail to provide meaningful verification gains, suggesting that verifier scaling alone cannot overcome fundamental verification challenges.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) のスケールアップにより,様々な領域にまたがる複雑な問題の解決が可能となった。
テスト時間スケーリング(TTS)の効果的なパラダイムの1つは、複数のソリューション候補を生成するLLMジェネレータと、参照応答なしでこれらの候補の正しさを評価するLLM検証器である。
本稿では,CoTの連鎖推論と二項検証による検証を行う生成検証器について検討する。
我々は,14のオープンソースモデル(2Bから72Bパラメータ範囲)とGPT-4oを用いて,数学的推論,知識,自然言語推論タスクにまたがる12のベンチマークを用いて,問題の難易度,ジェネレータ能力,検証器生成能力の3次元にわたる検証力学を系統的に解析した。
実験の結果, 検証の容易さは, 検証者の正しい応答をより確実に証明すること, 2) 弱い生成元が強い生成元よりも検出しやすいエラーを発生させること, 3) 検証能力は検証者の問題解決能力と一般的に相関するが, この関係は難易度によって異なることがわかった。
これらの結果は、TSアプリケーションの基本的な検証戦略を最適化する機会を明らかにしている。
例えば、Gemma2-9B と Gemma2-27B のパフォーマンスギャップは75.5%縮小する)。
第2に、有意義な検証ゲインの提供に失敗するため、強い検証器が弱い検証器に対して限られた優位性を与える場合を特定し、検証器のスケーリングだけでは基本的な検証課題を克服できないことを示唆する。
関連論文リスト
- Validating Solidity Code Defects using Symbolic and Concrete Execution powered by Large Language Models [0.0]
本稿では,Slither-based detectors, Large Language Models (LLMs), Kontrol, Forgeを統合した新しい検出パイプラインを提案する。
私たちのアプローチは、欠陥を確実に検出し、証明を生成するように設計されています。
論文 参考訳(メタデータ) (2025-09-16T12:46:11Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - Scaling Flaws of Verifier-Guided Search in Mathematical Reasoning [16.824343439487617]
大規模言語モデル(LLM)は、推論時間スケーリングがパフォーマンス改善のための有望な戦略として現れている、多段階推論に苦しむ。
検証者誘導探索は、有効な推論経路を選択して優先順位付けすることにより、サンプリングサイズが制限されたときに繰り返しサンプリングより優れる。
サンプルサイズが大きくなるにつれて、検証者誘導探索は利点を減らし、最終的には繰り返しサンプリングを過小評価する。
論文 参考訳(メタデータ) (2025-02-01T02:08:49Z) - Wrong-of-Thought: An Integrated Reasoning Framework with Multi-Perspective Verification and Wrong Information [14.071887353084126]
CoT(Chain-of-Thought)は大規模言語モデル(LLM)の性能向上に欠かせない技術となっている。
2つのコアモジュールを含むWrong-of-Thought (WoT)を提案する。
8つの一般的なデータセットと5つのLLMの実験は、WoTが以前のベースラインをすべて越えていることを示している。
論文 参考訳(メタデータ) (2024-10-06T12:27:21Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Networks of Networks: Complexity Class Principles Applied to Compound AI Systems Design [63.24275274981911]
多くの言語モデル推論コールからなる複合AIシステムは、ますます採用されている。
本研究では,提案した回答の生成と正当性検証の区別を中心に,ネットワークネットワーク(NoN)と呼ばれるシステムを構築した。
我々は,Kジェネレータを備えた検証器ベースの判定器NoNを導入し,"Best-of-K"あるいは"judge-based"複合AIシステムのインスタンス化を行う。
論文 参考訳(メタデータ) (2024-07-23T20:40:37Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。