論文の概要: DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts
- arxiv url: http://arxiv.org/abs/2412.10510v2
- Date: Thu, 06 Feb 2025 13:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.410216
- Title: DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts
- Title(参考訳): DEFAME: 動的エビデンスに基づくマルチモーダルエキスパートによるファクトチェック
- Authors: Tobias Braun, Mark Rothermel, Marcus Rohrbach, Anna Rohrbach,
- Abstract要約: Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME)は、オープンドメイン、テキストイメージクレーム検証のためのゼロショットMLLMパイプラインである。
DEFAMEは6段階のプロセスで動作し、ツールと検索深度を動的に選択し、テキストおよび視覚的証拠を抽出し、評価する。
人気のあるベンチマーク VERITE, AVerITeC, MOCHEG の評価では, DEFAME が以前の手法を全て上回っている。
- 参考スコア(独自算出の注目度): 35.952854524873246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of disinformation demands reliable and scalable fact-checking solutions. We present Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME), a modular, zero-shot MLLM pipeline for open-domain, text-image claim verification. DEFAME operates in a six-stage process, dynamically selecting the tools and search depth to extract and evaluate textual and visual evidence. Unlike prior approaches that are text-only, lack explainability, or rely solely on parametric knowledge, DEFAME performs end-to-end verification, accounting for images in claims and evidence while generating structured, multimodal reports. Evaluation on the popular benchmarks VERITE, AVerITeC, and MOCHEG shows that DEFAME surpasses all previous methods, establishing itself as the new state-of-the-art fact-checking system for uni- and multimodal fact-checking. Moreover, we introduce a new benchmark, CLAIMREVIEW24+, featuring claims after the knowledge cutoff of GPT4o to avoid data leakage. Here, DEFAME drastically outperforms the GPT Chain-of-Thought baseline, demonstrating temporal generalizability and the potential for real-time fact-checking.
- Abstract(参考訳): 偽情報の拡散は信頼性とスケーラブルなファクトチェックソリューションを必要とする。
マルチモーダルエキスパート(DEFAME)を用いた動的エビデンスに基づくFAct-checkingを提案する。
DEFAMEは6段階のプロセスで動作し、ツールと検索深度を動的に選択し、テキストおよび視覚的証拠を抽出し、評価する。
テキストのみのアプローチ、説明可能性の欠如、パラメトリック知識のみに依存する従来のアプローチとは異なり、DEFAMEは、構造化されたマルチモーダルレポートを生成しながら、クレームやエビデンス内のイメージを記述し、エンドツーエンドの検証を行う。
人気のあるベンチマーク VERITE, AVerITeC, MOCHEG による評価では、DEFAME は以前のすべての手法を超越しており、ユニモーダルおよびマルチモーダルなファクトチェックのための新しい最先端のファクトチェックシステムとして確立されている。
さらに,GPT4oの知識遮断後のデータ漏洩を回避するため,新たなベンチマークであるCLAIMREVIEW24+を導入する。
ここでは、DeFAMEがGPTチェーン・オブ・サートベースラインを大幅に上回り、時間的一般化性とリアルタイムの事実チェックの可能性を示す。
関連論文リスト
- Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [60.881609323604685]
ブラックボックスAPIを通じてアクセスされるLarge Language Models (LLM)は、信頼の課題をもたらす。
ユーザーは、宣伝されたモデル機能に基づいたサービスの料金を支払う。
プロバイダは、運用コストを削減するために、特定のモデルを安価で低品質の代替品に隠蔽的に置き換えることができる。
この透明性の欠如は、公正性を損なうとともに、信頼を損なうとともに、信頼性の高いベンチマークを複雑にする。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [90.65399476233495]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論タイプに焦点を当てている。
本稿では,人間の判断とLMM-as-a-judgeアプローチの両方を用いて,指示推論,外観整合性,視覚的可視性を評価する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z) - Verification with Transparency: The TrendFact Benchmark for Auditable Fact-Checking via Natural Language Explanation [10.449165630417522]
我々は、構造化された自然言語の説明を取り入れた最初の中国のファクトチェックベンチマークであるTrendFactを紹介する。
TrendFactは、トレンドのソーシャルメディアコンテンツとプロのファクトチェックレポジトリから、7,643の慎重にキュレートされたサンプルで構成されている。
数値的推論、論理的推論、常識的検証など、様々な推論形式をサポートしている。
論文 参考訳(メタデータ) (2024-10-19T15:25:19Z) - FIRE: Fact-checking with Iterative Retrieval and Verification [63.67320352038525]
FIREはエビデンス検索とクレーム検証を反復的に統合する新しいフレームワークである。
大きな言語モデル(LLM)のコストを平均7.6倍、検索コストを16.5倍削減しながら、パフォーマンスが若干向上している。
これらの結果から,FIREは大規模ファクトチェック業務における適用を約束していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-17T06:44:18Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - RED-DOT: Multimodal Fact-checking via Relevant Evidence Detection [17.107961913114778]
本稿では,各証拠が関連しているかどうかを識別するために,関連証拠検出(RED)モジュールを提案する。
RED-DOTは、VERITEベンチマークの最先端(SotA)を最大33.7%改善した。
RED-DOT は NewsCLIPings+ で SotA を最大3% 上回った。
論文 参考訳(メタデータ) (2023-11-16T14:43:45Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - End-to-End Multimodal Fact-Checking and Explanation Generation: A
Challenging Dataset and Models [0.0]
エンドツーエンドのファクトチェックと説明生成を提案する。
目標は、主張の真理性を評価することであり、関連する証拠を取得し、真理性ラベルを予測することである。
この研究を支援するために15,601クレームからなる大規模データセットであるMochegを構築した。
論文 参考訳(メタデータ) (2022-05-25T04:36:46Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - Open-Domain, Content-based, Multi-modal Fact-checking of Out-of-Context
Images via Online Resources [70.68526820807402]
実際のイメージは、コンテキストや要素を誤って表現することによって、他の物語をサポートするために再目的化される。
私たちのゴールは、画像とコンテキストのペアリングを事実チェックすることで、この時間を要する、推論集約的なプロセスを自動化する検査可能な方法です。
私たちの研究は、オープンドメイン、コンテンツベース、マルチモーダルなファクトチェックのための最初のステップとベンチマークを提供します。
論文 参考訳(メタデータ) (2021-11-30T19:36:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。