論文の概要: VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains
- arxiv url: http://arxiv.org/abs/2507.09884v3
- Date: Sat, 26 Jul 2025 11:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 22:32:02.41285
- Title: VerifyBench: A Systematic Benchmark for Evaluating Reasoning Verifiers Across Domains
- Title(参考訳): VerifyBench: ドメイン間の推論検証を評価するためのシステムベンチマーク
- Authors: Xuzhao Li, Xuchen Li, Shiyu Hu, Yongzhen Guo, Wentao Zhang,
- Abstract要約: 大規模な言語モデルは、フィードバックを通じて推論能力を高めるために強化学習に依存している。
既存の研究では、より良い検証器の構築に焦点が当てられているが、異なる種類の検証器の性能の体系的な評価は依然として不十分である。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
- 参考スコア(独自算出の注目度): 19.579511315215424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly rely on reinforcement learning (RL) to enhance their reasoning capabilities through feedback. A critical challenge is verifying the consistency of model-generated responses and reference answers, since these responses are often lengthy, diverse, and nuanced. Rule-based verifiers struggle with complexity, prompting the use of model-based verifiers. However, specialized verifiers lack flexibility, while general LLM judges can be inconsistent. Existing research primarily focuses on building better verifiers, yet a systematic evaluation of different types of verifiers' performance across domains remains lacking, severely constraining the reliable development of Reinforcement Learning with Verifiable Reward (RLVR). To address this, we propose VerifyBench--a cross-domain comprehensive benchmark for systematically evaluating verifiers. We construct 4,000 expert-level questions covering mathematics, physics, chemistry, and biology. Each question is equipped with reference answers and diverse responses. The reliability of the evaluation is ensured through a rigorous annotation process conducted by a multidisciplinary expert team. We design a four-dimensional experimental framework to comprehensively compare the performance boundaries of specialized verifiers and general LLMs under combined conditions of extracted answers vs. complete responses, and short vs. long outputs. Our evaluation uncovers fundamental trade-offs in verifiers: while specialized verifiers achieve leading accuracy, they exhibit deficiencies in recall; general models show stronger inclusivity but unstable precision. More importantly, we discover verifiers' high sensitivity to input structure and inherent limitations in cross-domain generalization, providing critical insights into the bottlenecks of current verifier technology.
- Abstract(参考訳): 大規模言語モデル(LLM)は、フィードバックを通じて推論能力を高めるために強化学習(RL)に依存している。
重要な課題は、モデル生成応答と参照応答の一貫性を検証することだ。
ルールベースの検証器は複雑さに悩まされ、モデルベースの検証器が使われる。
しかし、特殊検証器は柔軟性に欠けており、一般のLLM判定器は矛盾することがある。
既存の研究は主により良い検証器の構築に重点を置いているが、ドメイン間で異なるタイプの検証器の性能を体系的に評価することは依然として不十分であり、信頼性の高いReinforcement Learning with Verifiable Reward(RLVR)の開発を厳しく制約している。
そこで本研究では,検証を体系的に評価するためのクロスドメイン包括的ベンチマークであるVerifyBenchを提案する。
我々は、数学、物理学、化学、生物学に関する4000のエキスパートレベルの質問を構築した。
各質問には基準回答と多様な応答が備わっている。
評価の信頼性は、多分野の専門家チームによる厳密なアノテーションプロセスによって保証される。
本研究では,抽出された回答と完全応答と,短い出力と長い出力の組合せ条件下で,特殊検証器と一般LLMの性能境界を包括的に比較する4次元実験フレームワークを設計する。
本評価では, 検証者の基本的なトレードオフを明らかにするとともに, 精度が向上する一方で, 再現性に欠陥がみられ, 一般モデルでは, より強い傾きを示すが, 不安定な精度を示す。
さらに重要なことは、入力構造に対する検証者の高い感度とクロスドメインの一般化における固有の制限を発見し、現在の検証技術のボトルネックに関する重要な洞察を提供することである。
関連論文リスト
- Hallucination to Truth: A Review of Fact-Checking and Factuality Evaluation in Large Language Models [1.0138329337410974]
大規模言語モデル(LLM)は、不正確なコンテンツや誤解を招くコンテンツを含む多種多様なインターネットコーパスで訓練されている。
本総説では,LLM生成したコンテンツが現実の精度でどのように評価されるかを系統的に分析する。
論文 参考訳(メタデータ) (2025-08-05T19:20:05Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - ComposeRAG: A Modular and Composable RAG for Corpus-Grounded Multi-Hop Question Answering [42.238086712267396]
ComposeRAGは、RAGパイプラインをアトミックで構成可能なモジュールに分解する、新しいモジュラー抽象化である。
精度と接地忠実性の両方において、一貫して強いベースラインを上回ります。
検証ファーストの設計は、低品質の検索設定において、未解決の回答を10%以上削減する。
論文 参考訳(メタデータ) (2025-05-30T21:10:30Z) - Don't Take the Premise for Granted: Evaluating the Premise Critique Ability of Large Language Models [11.379764847748378]
大規模言語モデル(LLM)は、しばしば欠陥や矛盾した前提を受け入れ、非効率な推論と信頼できない出力をもたらす。
このことは、入力前提におけるエラーを積極的に識別し、明示する能力として定義されたLSMのためのtextbfPremise Critique Aabilities を持つことの重要性を強調している。
我々は,3つの難易度に4つのエラータイプを組み込んで設計したtextbfPremise Critique Bench (PCBench) を,多面的評価指標と組み合わせて紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:49:44Z) - VerifyBench: Benchmarking Reference-based Reward Systems for Large Language Models [55.39064621869925]
OpenAI o1とDeepSeek-R1は、推論の領域で素晴らしいパフォーマンスを達成した。
彼らのトレーニングの重要な要素は、強化学習に検証可能な報酬を取り入れることである。
既存の報酬ベンチマークでは、参照ベースの報酬システムの評価は行われていない。
論文 参考訳(メタデータ) (2025-05-21T17:54:43Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - SAS-Bench: A Fine-Grained Benchmark for Evaluating Short Answer Scoring with Large Language Models [36.10798324093408]
SAS-Benchは、大規模言語モデル(LLM)ベースのショートアンサースコーリングタスクのベンチマークである。
詳細な、段階的なスコアリング、専門家による注釈付きエラーカテゴリ、さまざまな質問タイプを提供する。
また,1030の質問と4,109人の学生回答を含むオープンソースデータセットも公開しています。
論文 参考訳(メタデータ) (2025-05-12T05:43:21Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Can LLMs Improve Multimodal Fact-Checking by Asking Relevant Questions? [16.559968418625537]
大規模言語モデル(LLM)は、証拠検索と事実検証を大規模に自動化するために一般的に用いられている。
本稿では,LLMを用いて証拠検索とファクトチェックの促進を図るためのフレームワークLRQ-FACTを提案する。
論文 参考訳(メタデータ) (2024-10-06T20:33:22Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection [55.70982767084996]
ディープフェイク検出の分野で見落とされがちな課題は、標準化され、統一され、包括的なベンチマークがないことである。
DeepfakeBenchと呼ばれる,3つの重要なコントリビューションを提供するディープフェイク検出のための,最初の包括的なベンチマークを提示する。
DeepfakeBenchには15の最先端検出方法、9CLデータセット、一連のDeepfake検出評価プロトコルと分析ツール、包括的な評価ツールが含まれている。
論文 参考訳(メタデータ) (2023-07-04T01:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。