論文の概要: QuanTemp: A real-world open-domain benchmark for fact-checking numerical claims
- arxiv url: http://arxiv.org/abs/2403.17169v2
- Date: Tue, 30 Apr 2024 08:55:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:58:59.616302
- Title: QuanTemp: A real-world open-domain benchmark for fact-checking numerical claims
- Title(参考訳): QuanTemp: 事実チェックの数値クレームのための実世界のオープンドメインベンチマーク
- Authors: Venktesh V, Abhijit Anand, Avishek Anand, Vinay Setty,
- Abstract要約: Numtempは数値的なクレームに特化したデータセットです。
我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。
- 参考スコア(独自算出の注目度): 4.874071145951159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated fact checking has gained immense interest to tackle the growing misinformation in the digital era. Existing systems primarily focus on synthetic claims on Wikipedia, and noteworthy progress has also been made on real-world claims. In this work, we release Numtemp, a diverse, multi-domain dataset focused exclusively on numerical claims, encompassing temporal, statistical and diverse aspects with fine-grained metadata and an evidence collection without leakage. This addresses the challenge of verifying real-world numerical claims, which are complex and often lack precise information, not addressed by existing works that mainly focus on synthetic claims. We evaluate and quantify the limitations of existing solutions for the task of verifying numerical claims. We also evaluate claim decomposition based methods, numerical understanding based models and our best baselines achieves a macro-F1 of 58.32. This demonstrates that Numtemp serves as a challenging evaluation set for numerical claim verification.
- Abstract(参考訳): デジタル時代の偽情報に対処するために、自動事実チェックが大きな関心を集めている。
既存のシステムは主にウィキペディアの人工的な主張に焦点を当てており、注目すべき進歩は現実世界の主張にも向けられている。
本研究では,時間的,統計的,多様な側面を包含し,詳細なメタデータと漏洩のないエビデンス収集を含む,数値的クレームに特化した多分野データセットであるNumtempをリリースする。
これは、複雑でしばしば正確な情報がない実世界の数値的主張を検証するという課題に対処し、主に合成的主張に焦点を当てた既存の研究には対処しない。
我々は,数値クレームの検証作業において,既存の解の限界を評価し,定量化する。
また,クレーム分解に基づく手法,数値理解に基づくモデル,および最良ベースラインが58.32のマクロF1を達成することを評価した。
このことは、Numtempが数値クレーム検証のための挑戦的な評価セットであることを示している。
関連論文リスト
- FactLens: Benchmarking Fine-Grained Fact Verification [6.814173254027381]
我々は、複雑なクレームを個別の検証のためにより小さなサブステートに分割する、きめ細かい検証へのシフトを提唱する。
我々は,ファクトレンス(FactLens)という,ファクトレンス(FactLens)という,詳細な事実検証のベンチマークを紹介した。
この結果から,FactLens自動評価器と人的判断との整合性を示し,評価性能に対する準定値特性の影響について考察した。
論文 参考訳(メタデータ) (2024-11-08T21:26:57Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - From Chaos to Clarity: Claim Normalization to Empower Fact-Checking [57.024192702939736]
Claim Normalization(別名 ClaimNorm)は、複雑でノイズの多いソーシャルメディア投稿を、より単純で分かりやすい形式に分解することを目的としている。
本稿では,チェーン・オブ・ソートとクレーム・チェック・バシネス推定を利用した先駆的アプローチであるCACNを提案する。
実験により, CACNは様々な評価尺度において, いくつかの基準値を上回る性能を示した。
論文 参考訳(メタデータ) (2023-10-22T16:07:06Z) - AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from
the Web [20.576644330553744]
AVeriTeCは、50の異なる組織によるファクトチェックをカバーする4,568の現実世界のクレームの新しいデータセットである。
それぞれのクレームには、オンラインで利用可能な証拠によって支持される質問と回答のペアと、証拠がどのように組み合わさって判断を下すかを説明する文章の正当性が含まれている。
論文 参考訳(メタデータ) (2023-05-22T15:17:18Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - Generating Literal and Implied Subquestions to Fact-check Complex Claims [64.81832149826035]
我々は、複雑なクレームを、そのクレームの正確性に影響を及ぼす「イエス・ノー・サブクエスト」の包括的集合に分解することに集中する。
我々は1000以上のクレームに対する分解のデータセットである ClaimDecomp を提示する。
これらのサブクエストは、関連する証拠を特定し、すべてのクレームを事実確認し、回答を通じて正確性を引き出すのに役立ちます。
論文 参考訳(メタデータ) (2022-05-14T00:40:57Z) - Synthetic Disinformation Attacks on Automated Fact Verification Systems [53.011635547834025]
本研究では,2つのシミュレーション環境において,自動ファクトチェッカーの合成正反対証拠に対する感度について検討する。
これらのシステムでは,これらの攻撃に対して大幅な性能低下がみられた。
偽情報の発生源としての現代のNLGシステムの脅威の増大について論じる。
論文 参考訳(メタデータ) (2022-02-18T19:01:01Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。