論文の概要: TSVer: A Benchmark for Fact Verification Against Time-Series Evidence
- arxiv url: http://arxiv.org/abs/2511.01101v1
- Date: Sun, 02 Nov 2025 22:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.0662
- Title: TSVer: A Benchmark for Fact Verification Against Time-Series Evidence
- Title(参考訳): TSVer: 時系列エビデンスに対する具体的な検証のためのベンチマーク
- Authors: Marek Strong, Andreas Vlachos,
- Abstract要約: 時系列エビデンスによる時間的および数値的推論に焦点を当てた,事実検証のための新しいベンチマークデータセットであるTSVerを紹介する。
TSVerには、38のファクトチェック組織に由来する287の現実世界のクレームと、さまざまなドメインをカバーする400の時系列のキュレートされたデータベースが含まれている。
- 参考スコア(独自算出の注目度): 8.095827820420839
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning over temporal and numerical data, such as time series, is a crucial aspect of fact-checking. While many systems have recently been developed to handle this form of evidence, their evaluation remains limited by existing datasets, which often lack structured evidence, provide insufficient justifications for verdicts, or rely on synthetic claims. In this paper, we introduce TSVer, a new benchmark dataset for fact verification focusing on temporal and numerical reasoning with time-series evidence. TSVer contains 287 real-world claims sourced from 38 fact-checking organizations and a curated database of 400 time series covering diverse domains. Each claim is annotated with time frames across all pertinent time series, along with a verdict and justifications reflecting how the evidence is used to reach the verdict. Using an LLM-assisted multi-step annotation process, we improve the quality of our annotations and achieve an inter-annotator agreement of kappa=0.745 on verdicts. We also develop a baseline for verifying claims against time-series evidence and show that even the state-of-the-art reasoning models like Gemini-2.5-Pro are challenged by time series, achieving a 63.37 accuracy score on verdicts and an Ev2R score of 48.63 on verdict justifications.
- Abstract(参考訳): 時系列などの時間的および数値的なデータに対する推論は、ファクトチェックの重要な側面である。
近年、このような証拠を扱うために多くのシステムが開発されているが、それらの評価は、しばしば構造化された証拠が欠如している既存のデータセットによって制限されている。
本稿では,時系列エビデンスを用いた時間的および数値的推論に着目した,事実検証のための新しいベンチマークデータセットTSVerを紹介する。
TSVerには、38のファクトチェック組織に由来する287の現実世界のクレームと、さまざまなドメインをカバーする400の時系列のキュレートされたデータベースが含まれている。
各クレームには、すべての関連する時系列にわたる時間枠が注釈付けされ、また、証拠がどのように判断に達するかを反映した評定と正当化がなされている。
LLMによる多段階アノテーションプロセスを用いることで、アノテーションの品質を改善し、判定に対するkappa=0.745のアノテータ間合意を実現する。
我々はまた、時系列証拠に対する主張を検証するためのベースラインを開発し、Gemini-2.5-Proのような最先端の推論モデルでさえ、評定の63.37の精度スコアと判定の48.63のEv2Rスコアを達成して、時系列によって挑戦されていることを示す。
関連論文リスト
- ChronoFact: Timeline-based Temporal Fact Verification [15.698391632115856]
テンポラルな主張は、しばしば不正確さに悩まされるが、デジタル誤報の風景において重要な課題である。
本稿では,主張と証拠の両方から事象を識別するタイムラインに基づく新しい事実検証フレームワークを提案する。
また、時系列に基づく推論を含む複雑な時間的クレームのデータセットも導入する。
論文 参考訳(メタデータ) (2024-10-19T03:44:19Z) - Evidence-Based Temporal Fact Verification [15.698391632115856]
本稿では,クレームの時間的情報を考慮した時間的事実検証のためのエンドツーエンドのソリューションを提案する。
我々は,事象間の意味的関係だけでなく,時系列的近さもカプセル化する時間依存表現を学習する。
実験の結果,提案手法は時間的クレーム検証の精度を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-07-21T23:13:05Z) - AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from
the Web [20.576644330553744]
AVeriTeCは、50の異なる組織によるファクトチェックをカバーする4,568の現実世界のクレームの新しいデータセットである。
それぞれのクレームには、オンラインで利用可能な証拠によって支持される質問と回答のペアと、証拠がどのように組み合わさって判断を下すかを説明する文章の正当性が含まれている。
論文 参考訳(メタデータ) (2023-05-22T15:17:18Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Implicit Temporal Reasoning for Evidence-Based Fact-Checking [14.015789447347466]
本研究は,証拠に基づく事実検証のクレーム検証プロセスに時間的効果が有意な影響を及ぼすことを示す。
本研究は, 時間情報の存在と, タイムラインの構築方法が, 事実確認モデルが証拠文書の関連性, サポート, 反証性を決定する方法に大きく影響していることを示す。
論文 参考訳(メタデータ) (2023-02-24T10:48:03Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z) - Time-Aware Evidence Ranking for Fact-Checking [56.247512670779045]
本稿では,Webページのタイムスタンプが,特定のクレームに対してどのようにランク付けされるべきか,という仮説を考察する。
本研究は,検索結果リストにおける意味的類似性や位置に基づく関連性仮定を総合的に上回るだけでなく,特に時間に敏感なクレームの正確性予測を改善することを明らかにする。
論文 参考訳(メタデータ) (2020-09-10T13:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。