論文の概要: What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis
- arxiv url: http://arxiv.org/abs/2604.01657v1
- Date: Thu, 02 Apr 2026 05:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.467768
- Title: What Do Claim Verification Datasets Actually Test? A Reasoning Trace Analysis
- Title(参考訳): クレーム検証データセットは実際に何をテストするのか?
- Authors: Delip Rao, Chris Callison-Burch,
- Abstract要約: GPT-4o-miniを用いて24Kクレーム検証例の構造化推論トレースを生成する。
直接的エビデンス抽出が支配的であるのに対し,多文合成と数値推論は極めて不十分である。
- 参考スコア(独自算出の注目度): 34.429649156970015
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Despite rapid progress in claim verification, we lack a systematic understanding of what reasoning these benchmarks actually exercise. We generate structured reasoning traces for 24K claim-verification examples across 9 datasets using GPT-4o-mini and find that direct evidence extraction dominates, while multi-sentence synthesis and numerical reasoning are severely under-represented. A dataset-level breakdown reveals stark biases: some datasets almost exclusively test lexical matching, while others require information synthesis in roughly half of cases. Using a compact 1B-parameter reasoning verifier, we further characterize five error types and show that error profiles vary dramatically by domain -- general-domain verification is dominated by lexical overlap bias, scientific verification by overcautiousness, and mathematical verification by arithmetic reasoning failures. Our findings suggest that high benchmark scores primarily reflect retrieval-plus-entailment ability. We outline recommendations for building more challenging evaluation suites that better test the reasoning capabilities verification systems need.
- Abstract(参考訳): クレーム検証の急速な進歩にもかかわらず、これらのベンチマークが実際に実行されている理由に関する体系的な理解が欠けている。
GPT-4o-miniを用いて,9つのデータセットの24Kクレーム検証例の構造化推論トレースを生成し,直接証拠抽出が優位であるのに対して,多文合成と数値推論は極めて低表現であることを示す。
一部のデータセットは語彙マッチングをほぼ独占的にテストし、他のデータセットはおよそ半数のケースで情報合成を必要とする。
コンパクトな1Bパラメータ推論検証器を用いて、さらに5つのエラータイプを特徴づけ、エラープロファイルがドメインによって劇的に変化することを示す。
以上の結果から,高いベンチマークスコアは検索+エンタテインメント能力に起因している可能性が示唆された。
より困難な評価スイートを構築するための推奨事項を概説する。
関連論文リスト
- AEGIS: From Clues to Verdicts -- Graph-Guided Deep Vulnerability Reasoning via Dialectics and Meta-Auditing [9.271196825503417]
大きな言語モデル(LLM)は、脆弱性検出にますます採用されているが、その推論は基本的には正しくない。
AEGISは、未解決の投機から、クローズドな事実ベース上の法医学的検証へ、検出をシフトする新しいマルチエージェントフレームワークである。
これは、主要なベースラインと比較して偽陽性率を最大54.40%削減し、1サンプルあたりの平均コストはタスク固有のトレーニングなしで0.09ドルである。
論文 参考訳(メタデータ) (2026-03-21T04:12:04Z) - The Alignment Bottleneck in Decomposition-Based Claim Verification [17.197804072440665]
我々は、時間的拘束力のある証拠と人間による注釈付きサブステートメント証拠を含む、現実世界の複雑なクレームのデータセットを新たに導入する。
サブステートアラインド・アライメント・エビデンス(SAE)と繰り返しクライム・レベル・エビデンス(SRE)という2つのアライメント・アライメント・セットアップの下での分解を評価する。
以上の結果から,エビデンスがきめ細やかで厳密に整合している場合にのみ,分解が大幅な性能向上をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2026-02-11T00:02:16Z) - Atomic Reasoning for Scientific Table Claim Verification [83.14588611859826]
非専門家は、その高い情報密度と認識される信頼性のために、科学的表に基づく主張を誤解させるおそれがある。
既存のテーブルクレーム検証モデル、例えば最先端の大規模言語モデル(LLM)は、しばしば精密なきめ細かい推論に苦しむ。
認知負荷理論に触発されて、表に基づく主張を解釈するモデルの能力を高めるには、認知負荷を減らす必要がある。
論文 参考訳(メタデータ) (2025-06-08T02:46:22Z) - CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection [60.98964268961243]
我々は,系統的かつ包括的な推論プロセスを実行するためのモデルを導くことで,モデルがよりきめ細やかで正確な絞り込み決定を実行できることを提案する。
我々は,(i)クレームの分解,(ii)サブクレームの属性と包含分類,および(iii)集約分類から成る3段階の推論プロセスを定義し,そのような導出推論が実際に幻覚検出の改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-06-05T17:02:52Z) - A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains [33.46649770312231]
ステップバイステップの回答を提供するために言語モデルを実証することは、複雑な推論タスクにおいて顕著なアプローチである。
このような検証方法の徹底的な評価を可能にするための、きめ細かいステップレベルのデータセットは提供されていない。
ReVEAL: Reasoning Verification Evaluationは複雑なチェーン・オブ・ソート推論の自動検証をベンチマークするデータセットである。
論文 参考訳(メタデータ) (2024-02-01T12:46:45Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z) - Topic-Aware Evidence Reasoning and Stance-Aware Aggregation for Fact
Verification [19.130541561303293]
本稿では,事実検証のための新たな話題認識型証拠推論とスタンス認識型アグリゲーションモデルを提案する。
2つのベンチマークデータセットで実施されたテストは、事実検証のためのいくつかの最先端アプローチよりも提案モデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-06-02T14:33:12Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。