論文の概要: Multilingual, Multimodal Pipeline for Creating Authentic and Structured Fact-Checked Claim Dataset
- arxiv url: http://arxiv.org/abs/2601.07985v1
- Date: Mon, 12 Jan 2026 20:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:18.940963
- Title: Multilingual, Multimodal Pipeline for Creating Authentic and Structured Fact-Checked Claim Dataset
- Title(参考訳): 認証・構造化ファクトチャッククラムデータセット作成のための多言語多モーダルパイプライン
- Authors: Z. Melce Hüsünbeyi, Virginie Mouilleron, Leonie Uhling, Daniel Foppe, Tatjana Scheffler, Djamé Seddah,
- Abstract要約: 本稿では,フランス語とドイツ語のマルチモーダルなファクトチェックデータセットを構築する包括的データ収集と処理パイプラインを提案する。
我々は, (i) 事前定義された証拠カテゴリに基づく証拠抽出と (ii) 証拠を評定に結びつける正当化生成のために, 最先端の大規模言語モデル (LLM) とマルチモーダル LLM を用いた。
- 参考スコア(独自算出の注目度): 3.1256048031872425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of misinformation across online platforms underscores the urgent need for robust, up-to-date, explainable, and multilingual fact-checking resources. However, existing datasets are limited in scope, often lacking multimodal evidence, structured annotations, and detailed links between claims, evidence, and verdicts. This paper introduces a comprehensive data collection and processing pipeline that constructs multimodal fact-checking datasets in French and German languages by aggregating ClaimReview feeds, scraping full debunking articles, normalizing heterogeneous claim verdicts, and enriching them with structured metadata and aligned visual content. We used state-of-the-art large language models (LLMs) and multimodal LLMs for (i) evidence extraction under predefined evidence categories and (ii) justification generation that links evidence to verdicts. Evaluation with G-Eval and human assessment demonstrates that our pipeline enables fine-grained comparison of fact-checking practices across different organizations or media markets, facilitates the development of more interpretable and evidence-grounded fact-checking models, and lays the groundwork for future research on multilingual, multimodal misinformation verification.
- Abstract(参考訳): オンラインプラットフォーム全体での誤報の急速な拡散は、堅牢で最新で説明可能な、多言語による事実チェックのリソースに対する緊急の必要性を浮き彫りにしている。
しかし、既存のデータセットは範囲に限られており、しばしばマルチモーダルなエビデンス、構造化されたアノテーション、クレーム、エビデンス、そして評決の詳細なリンクを欠いている。
本稿では,ClaymReviewフィードを集約し,満載記事をスクラップし,不均一なクレームの評定を正規化し,構造化メタデータとアライメントされたビジュアルコンテンツでそれらを強化することにより,フランス語とドイツ語のマルチモーダルなファクトチェックデータセットを構築する包括的データ収集と処理パイプラインを提案する。
我々は最先端の大規模言語モデル (LLM) とマルチモーダル LLM を用いた。
一 あらかじめ定められた証拠区分による証拠の抽出及び
(二 証拠を評決に結び付ける正当性発生
G-Evalとヒューマンアセスメントによる評価は、我々のパイプラインが、異なる組織やメディア市場におけるファクトチェックの実践のきめ細かい比較を可能にし、より解釈可能な、エビデンスに基づくファクトチェックモデルの開発を促進し、マルチリンガル、マルチモーダルの誤情報検証に関する今後の研究の基盤となることを実証している。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Unstructured Evidence Attribution for Long Context Query Focused Summarization [53.08341620504465]
固定粒度の場合よりも、より関連性が高く一貫した証拠を得るために、非構造的(すなわち任意の長さのスパン)な証拠を抽出することを提案する。
既存のシステムが、非構造的証拠をコピーし、適切に引用するのにどのように苦労しているかを示す。
論文 参考訳(メタデータ) (2025-02-20T09:57:42Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - Give Me More Details: Improving Fact-Checking with Latent Retrieval [58.706972228039604]
証拠は、自動化された事実チェックにおいて重要な役割を果たす。
既存のファクトチェックシステムは、エビデンス文が与えられたと仮定するか、検索エンジンが返した検索スニペットを使用する。
資料から得られた全文を証拠として組み込んで,2つの豊富なデータセットを導入することを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:01:19Z) - CHEF: A Pilot Chinese Dataset for Evidence-Based Fact-Checking [55.75590135151682]
CHEFは、10万件の現実世界のクレームに関する最初のChenese EvidenceベースのFact-checkingデータセットである。
このデータセットは、政治から公衆衛生まで、複数のドメインをカバーし、インターネットから取得した注釈付きの証拠を提供する。
論文 参考訳(メタデータ) (2022-06-06T09:11:03Z) - End-to-End Multimodal Fact-Checking and Explanation Generation: A
Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。
目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。
この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文 参考訳(メタデータ) (2022-05-25T04:36:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。