Fugu-MT 論文翻訳(概要): TSVer: A Benchmark for Fact Verification Against Time-Series Evidence

論文の概要: TSVer: A Benchmark for Fact Verification Against Time-Series Evidence

arxiv url: http://arxiv.org/abs/2511.01101v1
Date: Sun, 02 Nov 2025 22:33:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-05 16:37:27.0662
Title: TSVer: A Benchmark for Fact Verification Against Time-Series Evidence
Title（参考訳）: TSVer: 時系列エビデンスに対する具体的な検証のためのベンチマーク
Authors: Marek Strong, Andreas Vlachos,
Abstract要約: 時系列エビデンスによる時間的および数値的推論に焦点を当てた,事実検証のための新しいベンチマークデータセットであるTSVerを紹介する。 TSVerには、38のファクトチェック組織に由来する287の現実世界のクレームと、さまざまなドメインをカバーする400の時系列のキュレートされたデータベースが含まれている。
参考スコア（独自算出の注目度）: 8.095827820420839
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Reasoning over temporal and numerical data, such as time series, is a crucial aspect of fact-checking. While many systems have recently been developed to handle this form of evidence, their evaluation remains limited by existing datasets, which often lack structured evidence, provide insufficient justifications for verdicts, or rely on synthetic claims. In this paper, we introduce TSVer, a new benchmark dataset for fact verification focusing on temporal and numerical reasoning with time-series evidence. TSVer contains 287 real-world claims sourced from 38 fact-checking organizations and a curated database of 400 time series covering diverse domains. Each claim is annotated with time frames across all pertinent time series, along with a verdict and justifications reflecting how the evidence is used to reach the verdict. Using an LLM-assisted multi-step annotation process, we improve the quality of our annotations and achieve an inter-annotator agreement of kappa=0.745 on verdicts. We also develop a baseline for verifying claims against time-series evidence and show that even the state-of-the-art reasoning models like Gemini-2.5-Pro are challenged by time series, achieving a 63.37 accuracy score on verdicts and an Ev2R score of 48.63 on verdict justifications.
Abstract（参考訳）: 時系列などの時間的および数値的なデータに対する推論は、ファクトチェックの重要な側面である。近年、このような証拠を扱うために多くのシステムが開発されているが、それらの評価は、しばしば構造化された証拠が欠如している既存のデータセットによって制限されている。本稿では,時系列エビデンスを用いた時間的および数値的推論に着目した,事実検証のための新しいベンチマークデータセットTSVerを紹介する。 TSVerには、38のファクトチェック組織に由来する287の現実世界のクレームと、さまざまなドメインをカバーする400の時系列のキュレートされたデータベースが含まれている。各クレームには、すべての関連する時系列にわたる時間枠が注釈付けされ、また、証拠がどのように判断に達するかを反映した評定と正当化がなされている。 LLMによる多段階アノテーションプロセスを用いることで、アノテーションの品質を改善し、判定に対するkappa=0.745のアノテータ間合意を実現する。我々はまた、時系列証拠に対する主張を検証するためのベースラインを開発し、Gemini-2.5-Proのような最先端の推論モデルでさえ、評定の63.37の精度スコアと判定の48.63のEv2Rスコアを達成して、時系列によって挑戦されていることを示す。

関連論文リスト

A Benchmark for Open-Domain Numerical Fact-Checking Enhanced by Claim Decomposition [7.910984819642885]
QuanTemp++は、自然の数値的クレーム、オープンドメインコーパスからなるデータセットであり、各クレームに関する関連する証拠がある。キークレーム分解パラダイムの検索性能を特徴付ける。
論文参考訳（メタデータ） (2025-10-24T22:37:13Z)
Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文参考訳（メタデータ） (2025-07-20T18:02:50Z)
ChronoFact: Timeline-based Temporal Fact Verification [15.698391632115856]
テンポラルな主張は、しばしば不正確さに悩まされるが、デジタル誤報の風景において重要な課題である。本稿では,主張と証拠の両方から事象を識別するタイムラインに基づく新しい事実検証フレームワークを提案する。また、時系列に基づく推論を含む複雑な時間的クレームのデータセットも導入する。
論文参考訳（メタデータ） (2024-10-19T03:44:19Z)
Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。データセットの精度は6%向上した。
論文参考訳（メタデータ） (2024-10-07T00:09:50Z)
Evidence-Based Temporal Fact Verification [15.698391632115856]
本稿では,クレームの時間的情報を考慮した時間的事実検証のためのエンドツーエンドのソリューションを提案する。我々は,事象間の意味的関係だけでなく,時系列的近さもカプセル化する時間依存表現を学習する。実験の結果,提案手法は時間的クレーム検証の精度を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-07-21T23:13:05Z)
AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web [20.576644330553744]
AVeriTeCは、50の異なる組織によるファクトチェックをカバーする4,568の現実世界のクレームの新しいデータセットである。それぞれのクレームには、オンラインで利用可能な証拠によって支持される質問と回答のペアと、証拠がどのように組み合わさって判断を下すかを説明する文章の正当性が含まれている。
論文参考訳（メタデータ） (2023-05-22T15:17:18Z)
WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文参考訳（メタデータ） (2023-03-02T17:45:32Z)
Implicit Temporal Reasoning for Evidence-Based Fact-Checking [14.015789447347466]
本研究は,証拠に基づく事実検証のクレーム検証プロセスに時間的効果が有意な影響を及ぼすことを示す。本研究は, 時間情報の存在と, タイムラインの構築方法が, 事実確認モデルが証拠文書の関連性, サポート, 反証性を決定する方法に大きく影響していることを示す。
論文参考訳（メタデータ） (2023-02-24T10:48:03Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文参考訳（メタデータ） (2021-04-01T17:40:08Z)
Time-Aware Evidence Ranking for Fact-Checking [56.247512670779045]
本稿では,Webページのタイムスタンプが,特定のクレームに対してどのようにランク付けされるべきか,という仮説を考察する。本研究は,検索結果リストにおける意味的類似性や位置に基づく関連性仮定を総合的に上回るだけでなく,特に時間に敏感なクレームの正確性予測を改善することを明らかにする。
論文参考訳（メタデータ） (2020-09-10T13:39:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。