論文の概要: AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web
- arxiv url: http://arxiv.org/abs/2505.17978v1
- Date: Fri, 23 May 2025 14:45:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.167014
- Title: AVerImaTeC: A Dataset for Automatic Verification of Image-Text Claims with Evidence from the Web
- Title(参考訳): AVerImaTeC: Webによる画像テキストクレームの自動検証用データセット
- Authors: Rui Cao, Zifeng Ding, Zhijiang Guo, Michael Schlichtkrull, Andreas Vlachos,
- Abstract要約: 1,297個の実世界の画像テキストクレームからなるデータセットであるAVerImaTeCを紹介する。
各クレームには、ウェブからの証拠を含む質問と回答のペアが注釈付けされている。
我々は、文脈依存、時間リーク、証拠不足などの事実チェックデータセットにおける課題を軽減する。
- 参考スコア(独自算出の注目度): 25.513968401608924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textual claims are often accompanied by images to enhance their credibility and spread on social media, but this also raises concerns about the spread of misinformation. Existing datasets for automated verification of image-text claims remain limited, as they often consist of synthetic claims and lack evidence annotations to capture the reasoning behind the verdict. In this work, we introduce AVerImaTeC, a dataset consisting of 1,297 real-world image-text claims. Each claim is annotated with question-answer (QA) pairs containing evidence from the web, reflecting a decomposed reasoning regarding the verdict. We mitigate common challenges in fact-checking datasets such as contextual dependence, temporal leakage, and evidence insufficiency, via claim normalization, temporally constrained evidence annotation, and a two-stage sufficiency check. We assess the consistency of the annotation in AVerImaTeC via inter-annotator studies, achieving a $\kappa=0.742$ on verdicts and $74.7\%$ consistency on QA pairs. We also propose a novel evaluation method for evidence retrieval and conduct extensive experiments to establish baselines for verifying image-text claims using open-web evidence.
- Abstract(参考訳): テキストのクレームには、その信頼性を高め、ソーシャルメディアに拡散するイメージが伴うことが多いが、これは誤報の拡散への懸念も引き起こす。
画像テキストのクレームを自動検証するための既存のデータセットは、しばしば合成クレームで構成され、判断の背後にある推論を捉えるための証拠アノテーションが欠如しているため、制限されている。
本研究では,1,297個の実世界の画像テキストクレームからなるデータセットであるAVerImaTeCを紹介する。
各クレームは、ウェブから証拠を含む質問応答(QA)ペアで注釈付けされ、判決に関する分解された推論を反映している。
我々は,文脈依存,時間的漏洩,証拠不足などの事実チェックデータセットにおいて,クレーム正規化,時間的制約のあるエビデンスアノテーション,および2段階のサフィシデンスチェックを通じて,一般的な課題を緩和する。
AVerImaTeCにおけるアノテーションの整合性は、アノテータ間の研究を通して評価し、評定で$\kappa=0.742$、QA対で$74.7\%を達成する。
また,証拠検索のための新たな評価手法を提案し,オープンWebエビデンスを用いた画像テキストクレーム検証のためのベースラインを確立する。
関連論文リスト
- AVeriTeC: A Dataset for Real-world Claim Verification with Evidence from
the Web [20.576644330553744]
AVeriTeCは、50の異なる組織によるファクトチェックをカバーする4,568の現実世界のクレームの新しいデータセットである。
それぞれのクレームには、オンラインで利用可能な証拠によって支持される質問と回答のペアと、証拠がどのように組み合わさって判断を下すかを説明する文章の正当性が含まれている。
論文 参考訳(メタデータ) (2023-05-22T15:17:18Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - AmbiFC: Fact-Checking Ambiguous Claims with Evidence [57.7091560922174]
実世界の情報ニーズから10kクレームを抽出したファクトチェックデータセットであるAmbiFCを提示する。
アンビFCの証拠に対する主張を比較する際に,曖昧さから生じる不一致を分析した。
我々は,このあいまいさをソフトラベルで予測するモデルを開発した。
論文 参考訳(メタデータ) (2021-04-01T17:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。