論文の概要: ClaimDB: A Fact Verification Benchmark over Large Structured Data
- arxiv url: http://arxiv.org/abs/2601.14698v1
- Date: Wed, 21 Jan 2026 06:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.260295
- Title: ClaimDB: A Fact Verification Benchmark over Large Structured Data
- Title(参考訳): ClaimDB: 大規模構造化データに対するFact Verificationベンチマーク
- Authors: Michael Theologitis, Preetam Prabhu Srikar Dammu, Chirag Shah, Dan Suciu,
- Abstract要約: ClaimDBは、クレームの証拠が数百万のレコードと複数のテーブルの合成から導かれる最初の事実検証ベンチマークである。
この規模では、証拠を「読む」ことに依存する検証アプローチが崩壊する。
我々は30の最先端のプロプライエタリかつオープンソース(70B以下)のLLMで実験を行い、その精度は83%を超え、半分以上は55%以下であることがわかった。
- 参考スコア(独自算出の注目度): 10.486689553169018
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite substantial progress in fact-verification benchmarks, claims grounded in large-scale structured data remain underexplored. In this work, we introduce ClaimDB, the first fact-verification benchmark where the evidence for claims is derived from compositions of millions of records and multiple tables. ClaimDB consists of 80 unique real-life databases covering a wide range of domains, from governance and healthcare to media, education and the natural sciences. At this scale, verification approaches that rely on "reading" the evidence break down, forcing a timely shift toward reasoning in executable programs. We conduct extensive experiments with 30 state-of-the-art proprietary and open-source (below 70B) LLMs and find that none exceed 83% accuracy, with more than half below 55%. Our analysis also reveals that both closed- and open-source models struggle with abstention -- the ability to admit that there is no evidence to decide -- raising doubts about their reliability in high-stakes data analysis. We release the benchmark, code, and the LLM leaderboard at https://claimdb.github.io .
- Abstract(参考訳): 事実検証ベンチマークの大幅な進歩にもかかわらず、大規模な構造化されたデータに基づく主張は未調査のままである。
本稿では,数百万のレコードと複数のテーブルの合成からクレームの証拠を導出する,最初の事実検証ベンチマークであるCranmDBを紹介する。
ClaimDBは、ガバナンスやヘルスケア、メディア、教育、自然科学など、さまざまな領域をカバーする80のユニークな実生活データベースで構成されている。
この規模では、エビデンスを「読む」ことに依存する検証アプローチが崩壊し、実行可能プログラムにおける推論へのタイムリーなシフトを余儀なくされる。
我々は、30の最先端のプロプライエタリかつオープンソース(70B以下)のLLMで広範な実験を行い、その精度は83%を超え、半数以上を55%以下としています。
我々の分析は、クローズドおよびオープンソースモデルの両方が、断固とした -- 決定する証拠がないことを認める能力 -- に苦慮していることも示しています。
ベンチマーク、コード、LLMのリーダーボードはhttps://claimdb.github.io で公開しています。
関連論文リスト
- VeriTaS: The First Dynamic Benchmark for Multimodal Automated Fact-Checking [16.671088521668864]
We introduced Verified Theses and Statements (VeriTaS, first dynamic benchmark for multimodal Automated Fact-Checking (AFC)。
VeriTaSは、54言語にわたる108のプロのファクトチェック組織による24,000の現実世界のクレームで構成されている。
自動アノテーションは人間の判断と密接に一致していることを示す。
論文 参考訳(メタデータ) (2026-01-13T14:56:40Z) - Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。
ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文 参考訳(メタデータ) (2025-12-31T13:55:54Z) - A Benchmark for Open-Domain Numerical Fact-Checking Enhanced by Claim Decomposition [7.910984819642885]
QuanTemp++は、自然の数値的クレーム、オープンドメインコーパスからなるデータセットであり、各クレームに関する関連する証拠がある。
キークレーム分解パラダイムの検索性能を特徴付ける。
論文 参考訳(メタデータ) (2025-10-24T22:37:13Z) - ReportBench: Evaluating Deep Research Agents via Academic Survey Tasks [14.371010711040304]
ReportBenchは、大規模言語モデル(LLM)によって生成された研究レポートの内容品質を評価するために設計されたベンチマークである。
本評価は,(1)引用文献の質と妥当性,(2)報告内容の忠実さと妥当性の2つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-14T03:33:43Z) - How Should We Build A Benchmark? Revisiting 274 Code-Related Benchmarks For LLMs [60.25940747590386]
本稿では,コード関連ベンチマークの開発を包括的に管理するためのガイドラインとして,55の基準チェックリストからなるHow2Benchを提案する。
私たちは過去10年以内にリリースされた274のベンチマークをプロファイルし、問題を見つけました。
ベンチマークの70%近くはデータ品質保証の措置を取らず、10%以上がオープンソースでも、部分的にはオープンソースでもなかった。
論文 参考訳(メタデータ) (2025-01-18T09:51:57Z) - TrendFact: A Benchmark for Explainable Hotspot Perception in Fact-Checking with Natural Language Explanation [9.221637941193606]
ホットスポット認識能力(HPA)とすべてのファクトチェックタスクを評価することができる最初のベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドプラットフォームとプロのファクトチェックデータセットから得られた7,643のキュレートされたサンプルで構成されている。
また、動的エビデンス強化と影響スコアに基づく反復的自己回帰を統合した推論フレームワークであるFactISRを提案する。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。