論文の概要: Frame-Guided Synthetic Claim Generation for Automatic Fact-Checking Using High-Volume Tabular Data
- arxiv url: http://arxiv.org/abs/2601.17232v1
- Date: Fri, 23 Jan 2026 23:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.434423
- Title: Frame-Guided Synthetic Claim Generation for Automatic Fact-Checking Using High-Volume Tabular Data
- Title(参考訳): 高音量タブラリデータを用いたフレームガイドによる自動ファクトチェッキングのための合成クレーム生成
- Authors: Jacob Devasier, Akshith Putta, Qing Wang, Alankrit Moses, Chengkai Li,
- Abstract要約: この重要なギャップに対処するため、我々は新しい大規模多言語データセットを導入します。
78,503件の合成クレームがOECDの複雑なテーブルに格納され、それぞれ平均500万行を超える。
LLMがこれらの事実を記憶していないことを実証する。
- 参考スコア(独自算出の注目度): 6.26620319525128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated fact-checking benchmarks have largely ignored the challenge of verifying claims against real-world, high-volume structured data, instead focusing on small, curated tables. We introduce a new large-scale, multilingual dataset to address this critical gap. It contains 78,503 synthetic claims grounded in 434 complex OECD tables, which average over 500K rows each. We propose a novel, frame-guided methodology where algorithms programmatically select significant data points based on six semantic frames to generate realistic claims in English, Chinese, Spanish, and Hindi. Crucially, we demonstrate through knowledge-probing experiments that LLMs have not memorized these facts, forcing systems to perform genuine retrieval and reasoning rather than relying on parameterized knowledge. We provide a baseline SQL-generation system and show that our benchmark is highly challenging. Our analysis identifies evidence retrieval as the primary bottleneck, with models struggling to find the correct data in massive tables. This dataset provides a critical new resource for advancing research on this unsolved, real-world problem.
- Abstract(参考訳): 自動ファクトチェックベンチマークは、実際の高ボリュームな構造化データに対するクレームの検証という課題を無視し、代わりに小さなキュレートされたテーブルに焦点を当てている。
この重要なギャップに対処するため、我々は新しい大規模多言語データセットを導入します。
434の複雑なOECDテーブルに、78,503の合成クレームがあり、それぞれ平均500万行を超える。
本稿では,6つの意味的フレームに基づいて,アルゴリズムが重要なデータポイントをプログラム的に選択して,英語,中国語,スペイン語,ヒンディー語で現実的なクレームを生成する,新しいフレーム誘導手法を提案する。
重要なことは、LLMがこれらの事実を記憶せず、パラメータ化された知識に頼るのではなく、真の検索と推論を行うようシステムに強制する知識探索実験を通じて実証する。
ベースラインのSQL生成システムを提供し、ベンチマークが極めて困難であることを示す。
本分析では, 証拠検索を主要なボトルネックとして認識し, 大規模テーブルで正しいデータを見つけるのに苦慮するモデルについて検討した。
このデータセットは、未解決の現実世界の問題の研究を進めるための重要な新しいリソースを提供する。
関連論文リスト
- Agentic LLMs for Question Answering over Tabular Data [6.310433217813068]
Tabular Data (Table QA) に対する質問回答は、現実世界のテーブルの構造、サイズ、データタイプが多様であることから、ユニークな課題を提示している。
本稿では,我々の方法論,実験結果,代替手法について詳述し,テーブルQAの強度と限界について考察する。
論文 参考訳(メタデータ) (2025-09-11T08:12:38Z) - LLM-Symbolic Integration for Robust Temporal Tabular Reasoning [69.27153114778748]
本研究では,システムおよび制御された評価のための合成データセットであるTempTabQA-Cを紹介する。
この構造化アプローチにより、LLM(Large Language Models)はsqlクエリの生成と実行を可能にし、一般化とバイアス軽減の強化を行う。
論文 参考訳(メタデータ) (2025-06-06T05:14:04Z) - RAISE: Reasoning Agent for Interactive SQL Exploration [47.77323087050061]
本稿では,スキーマリンク,クエリ生成,反復的改善を1つのエンドツーエンドコンポーネントに統一する新しいフレームワークを提案する。
本手法は、不慣れなデータベースを扱う際に、人間がどう答えるかをエミュレートする。
論文 参考訳(メタデータ) (2025-06-02T03:07:08Z) - Learning from Imperfect Data: Towards Efficient Knowledge Distillation of Autoregressive Language Models for Text-to-SQL [83.99974309930072]
知識蒸留(KD)は、より大規模な教師モデルをより小さな学生モデルに蒸留することを目的とした一般的な手法である。
我々は,不完全なデータ,すなわちKIDを用いてKDを改善することを提案する。
KIDは、すべてのモデルタイプとサイズで一貫した、重要なパフォーマンス向上を達成するだけでなく、トレーニング効率を効果的に向上する。
論文 参考訳(メタデータ) (2024-10-15T07:51:00Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
不完全なドキュメンテーション、不正確なラベル、倫理的懸念、時代遅れの情報といったデータ品質問題は、広く使われているデータセットで共通している。
大きな言語モデル(LLM)の急増する能力により、LLMエージェントによる隠れデータセット問題の発見の合理化が約束されている。
本研究では,この課題に対処するLLMエージェントの能力を評価するためのベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。