Fugu-MT 論文翻訳(概要): NUMTEMP: A real-world benchmark to verify claims with statistical and temporal expressions

論文の概要: NUMTEMP: A real-world benchmark to verify claims with statistical and temporal expressions

arxiv url: http://arxiv.org/abs/2403.17169v1
Date: Mon, 25 Mar 2024 20:36:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-27 19:36:07.868286
Title: NUMTEMP: A real-world benchmark to verify claims with statistical and temporal expressions
Title（参考訳）: NUMTEMP: 統計的および時間的表現によるクレームの検証のための実世界のベンチマーク
Authors: Venktesh V, Abhijit Anand, Avishek Anand, Vinay Setty,
Abstract要約: Numtempは数値的なクレームに特化したデータセットです。我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。
参考スコア（独自算出の注目度）: 4.874071145951159
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release Numtemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that Numtemp serves as a challenging evaluation set for numerical claim verification.
Abstract（参考訳）: デジタル時代の偽情報に対処するために、自動事実チェックが大きな関心を集めている。既存のシステムは主にウィキペディアの人工的な主張に焦点を当てており、注目すべき進歩は現実世界の主張にも向けられている。本研究では,時間的,統計的,多様な側面を包含し,詳細なメタデータと漏洩のないエビデンス収集を含む,数値的クレームに特化した多分野データセットであるNumtempをリリースする。これは、複雑でしばしば正確な情報がない実世界の数値的主張を検証するという課題に対処し、主に合成的主張に焦点を当てた既存の研究には対処しない。我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。また,クレーム分解に基づく手法,数値理解に基づくモデル,および最良ベースラインが58.32のマクロF1を達成することを評価した。このことは、Numtempが数値クレーム検証のための挑戦的な評価セットであることを示している。

関連論文リスト

TSVer: A Benchmark for Fact Verification Against Time-Series Evidence [8.095827820420839]
時系列エビデンスによる時間的および数値的推論に焦点を当てた,事実検証のための新しいベンチマークデータセットであるTSVerを紹介する。 TSVerには、38のファクトチェック組織に由来する287の現実世界のクレームと、さまざまなドメインをカバーする400の時系列のキュレートされたデータベースが含まれている。
論文参考訳（メタデータ） (2025-11-02T22:33:19Z)
A Benchmark for Open-Domain Numerical Fact-Checking Enhanced by Claim Decomposition [7.910984819642885]
QuanTemp++は、自然の数値的クレーム、オープンドメインコーパスからなるデータセットであり、各クレームに関する関連する証拠がある。キークレーム分解パラダイムの検索性能を特徴付ける。
論文参考訳（メタデータ） (2025-10-24T22:37:13Z)
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。 25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文参考訳（メタデータ） (2025-10-01T07:59:03Z)
FactIR: A Real-World Zero-shot Open-Domain Retrieval Benchmark for Fact-Checking [3.1537425078180625]
自動化されたファクトチェックの分野は、現実のシナリオにおけるクレームの正確性を決定するために、Webベースの証拠を取得することにますます依存している。従来の検索手法では、クレームに直接対処する文書を返したり、それらをサポートするために傾いたりすることができるが、間接的推論を必要とするより複雑なクレームに悩まされることがしばしばある。人間のアノテーションで拡張されたFactiverseプロダクションログから派生した実世界のベンチマークFactIRを提案する。
論文参考訳（メタデータ） (2025-02-09T19:51:00Z)
FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文参考訳（メタデータ） (2024-11-08T21:26:57Z)
ChronoFact: Timeline-based Temporal Fact Verification [15.698391632115856]
テンポラルな主張は、しばしば不正確さに悩まされるが、デジタル誤報の風景において重要な課題である。本稿では,主張と証拠の両方から事象を識別するタイムラインに基づく新しい事実検証フレームワークを提案する。また、時系列に基づく推論を含む複雑な時間的クレームのデータセットも導入する。
論文参考訳（メタデータ） (2024-10-19T03:44:19Z)
Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。データセットの精度は6%向上した。
論文参考訳（メタデータ） (2024-10-07T00:09:50Z)
OpenFactCheck: Building, Benchmarking Customized Fact-Checking Systems and Evaluating the Factuality of Claims and LLMs [59.836774258359945]
OpenFactCheckは、カスタマイズされたファクトチェックシステムを構築するためのフレームワークである。ユーザーは自動的にファクトチェッカーをカスタマイズし、文書やクレームの事実的正当性を検証できる。 CheckerEVALは、人間の注釈付きデータセットを使用して、自動ファクトチェッカーの検証結果の信頼性を高めるソリューションである。
論文参考訳（メタデータ） (2024-05-09T07:15:19Z)
From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文参考訳（メタデータ） (2023-10-22T16:07:06Z)
AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from the Web [20.576644330553744]
AVeriTeCは、50の異なる組織によるファクトチェックをカバーする4,568の現実世界のクレームの新しいデータセットである。それぞれのクレームには、オンラインで利用可能な証拠によって支持される質問と回答のペアと、証拠がどのように組み合わさって判断を下すかを説明する文章の正当性が含まれている。
論文参考訳（メタデータ） (2023-05-22T15:17:18Z)
WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文参考訳（メタデータ） (2023-03-02T17:45:32Z)
Generating Literal and Implied Subquestions to Fact-check Complex Claims [64.81832149826035]
我々は、複雑なクレームを、そのクレームの正確性に影響を及ぼす「イエス・ノー・サブクエスト」の包括的集合に分解することに集中する。我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。これらのサブクエストは、関連する証拠を特定し、すべてのクレームを事実確認し、回答を通じて正確性を引き出すのに役立ちます。
論文参考訳（メタデータ） (2022-05-14T00:40:57Z)
Synthetic Disinformation Attacks on Automated Fact Verification Systems [53.011635547834025]
本研究では,2つのシミュレーション環境において,自動ファクトチェッカーの合成正反対証拠に対する感度について検討する。これらのシステムでは,これらの攻撃に対して大幅な性能低下がみられた。偽情報の発生源としての現代のNLGシステムの脅威の増大について論じる。
論文参考訳（メタデータ） (2022-02-18T19:01:01Z)
FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文参考訳（メタデータ） (2021-07-05T17:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。