論文の概要: Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational Databases
- arxiv url: http://arxiv.org/abs/2512.03278v1
- Date: Tue, 02 Dec 2025 22:35:48 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:59:39.646065
- Title: Thucy: An LLM-based Multi-Agent System for Claim Verification across Relational Databases
- Title(参考訳): Thucy: 関係データベース間のクレーム検証のためのLLMベースのマルチエージェントシステム
- Authors: Michael Theologitis, Dan Suciu,
- Abstract要約: Thucyはクロスプラットフォームのマルチエージェントクレーム検証システムである。
システムは、クレームを検証するために利用可能なすべてのデータベースを自律的に発見し、検査し、推論する。
- 参考スコア(独自算出の注目度): 2.1771821757134906
- License:
- Abstract: In today's age, it is becoming increasingly difficult to decipher truth from lies. Every day, politicians, media outlets, and public figures make conflicting claims$\unicode{x2014}$often about topics that can, in principle, be verified against structured data. For instance, statements about crime rates, economic growth or healthcare can all be verified against official public records and structured datasets. Building a system that can automatically do that would have sounded like science fiction just a few years ago. Yet, with the extraordinary progress in LLMs and agentic AI, this is now within reach. Still, there remains a striking gap between what is technically possible and what is being demonstrated by recent work. Most existing verification systems operate only on small, single-table databases$\unicode{x2014}$typically a few hundred rows$\unicode{x2014}$that conveniently fit within an LLM's context window. In this paper we report our progress on Thucy, the first cross-database, cross-table multi-agent claim verification system that also provides concrete evidence for each verification verdict. Thucy remains completely agnostic to the underlying data sources before deployment and must therefore autonomously discover, inspect, and reason over all available relational databases to verify claims. Importantly, Thucy also reports the exact SQL queries that support its verdict (whether the claim is accurate or not) offering full transparency to expert users familiar with SQL. When evaluated on the TabFact dataset$\unicode{x2014}$the standard benchmark for fact verification over structured data$\unicode{x2014}$Thucy surpasses the previous state of the art by 5.6 percentage points in accuracy (94.3% vs. 88.7%).
- Abstract(参考訳): 今日の時代には、嘘から真実を解読することはますます困難になっている。
政治家、メディア、そして公共関係者は毎日、構造化データに対して原則として検証できるトピックについて、矛盾する主張を$\unicode{x2014}$ oftentenで行っている。
例えば、犯罪率、経済成長、医療に関する声明はすべて、公式の公開記録や構造化データセットに対して検証することができる。
自動でそれを行うシステムを構築することは、数年前にはSFのように聞こえるだろう。
しかし、LLMとエージェントAIの驚異的な進歩により、現在この状況は手の届くところにある。
それでも、技術的に可能なものと、最近の研究で実証されているものの間には、大きなギャップが残っている。
既存の検証システムは、小さな単一テーブルデータベース$\unicode{x2014}$典型的には数百行$\unicode{x2014}$、LLMのコンテキストウィンドウに都合よく適合する。
本稿では,最初のクロスデータベース・マルチエージェント・クレーム検証システムであるThucyについて述べる。
Thucyはデプロイ前に基盤となるデータソースに完全に依存せず、従ってクレームを検証するために利用可能なすべてのリレーショナルデータベースを自律的に発見し、検査し、理由付けする必要がある。
重要な点として、Thucy氏は、(主張が正確かどうかに関わらず)判断をサポートする正確なSQLクエリを報告し、SQLに精通しているエキスパートユーザーに完全な透明性を提供する。
TabFactデータセット$\unicode{x2014}$Thucyは、構造化データに対する事実検証の標準ベンチマークである$\unicode{x2014}$Thucyで評価されると、従来の最先端の精度を5.6ポイント上回っている(94.3%対88.7%)。
関連論文リスト
- FinAI Data Assistant: LLM-based Financial Database Query Processing with the OpenAI Function Calling API [1.1985612872852671]
FinAI Data Assistantは、金融データベース上の自然言語クエリの実践的なアプローチである。
システムは、ユーザリクエストを、検証済みのパラメータ化されたクエリの小さなライブラリにルーティングする。
結果:NASDAQ-100はティッカーマッピングの精度がほぼ完璧であり、S&P500企業にとっては高い。
論文 参考訳(メタデータ) (2025-10-15T23:19:27Z) - ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge [50.93758649363798]
Impliretは、推論の課題をドキュメント側処理にシフトするベンチマークである。
我々は,この環境下で苦戦している,疎水・密集したレトリバーの幅を評価した。
論文 参考訳(メタデータ) (2025-06-17T11:08:29Z) - SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation [8.638974393417929]
State-of-the-the-art text-to-sql studyはBIRDデータセットに依存しており、証拠が質問と共に提供されると仮定している。
実世界のシナリオにおける性能向上と実用性向上のためのエビデンスを自動生成するSEEDを提案する。
論文 参考訳(メタデータ) (2025-06-09T04:44:31Z) - Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Structuring the Unstructured: A Multi-Agent System for Extracting and Querying Financial KPIs and Guidance [54.25184684077833]
構造化されていない財務文書から定量的な洞察を抽出する,効率的でスケーラブルな手法を提案する。
提案システムは,emphExtraction AgentとemphText-to-Agentの2つの特殊エージェントから構成される。
論文 参考訳(メタデータ) (2025-05-25T15:45:46Z) - Generate-then-Verify: Reconstructing Data from Limited Published Statistics [22.649631494395653]
我々は、多くの可能なデータセットが公表された統計に一致し、プライベートデータセット全体を完璧に再構築することが不可能な体制に焦点を当てる。
まず、$textbfgenerates$一組のクレームを、次に$textbfverify$各クレームがすべての可能なデータセットに対して保持するかどうかを判断する、新しい整数プログラミング手法を導入します。
我々は、米国の十年国勢調査のリリースによる住宅レベルのマイクロデータに対する我々のアプローチを評価し、そのようなデータに関する情報が比較的少ない場合でも、プライバシー侵害は継続可能であることを実証した。
論文 参考訳(メタデータ) (2025-04-29T22:06:04Z) - DAC: Decomposed Automation Correction for Text-to-SQL [51.48239006107272]
De Automation Correction (DAC)を導入し、エンティティリンクとスケルトン解析を分解することでテキストから合成を補正する。
また,本手法では,ベースライン法と比較して,スパイダー,バード,カグルDBQAの平均値が平均3.7%向上することを示した。
論文 参考訳(メタデータ) (2024-08-16T14:43:15Z) - Database-Augmented Query Representation for Information Retrieval [71.41745087624528]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
我々はDAQuを多様な検索シナリオで検証し、全体の検索性能を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。