論文の概要: DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection
- arxiv url: http://arxiv.org/abs/2601.07178v1
- Date: Mon, 12 Jan 2026 04:01:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.19766
- Title: DIVER: Dynamic Iterative Visual Evidence Reasoning for Multimodal Fake News Detection
- Title(参考訳): DIVER:マルチモーダルフェイクニュース検出のための動的反復的ビジュアルエビデンス推論
- Authors: Weilin Zhou, Zonghao Ying, Chunlei Meng, Jiahui Liu, Hengyang Zhou, Quanchen Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang,
- Abstract要約: 多モーダル偽ニュース検出は、敵対的誤報の軽減に不可欠である。
進化的,エビデンス駆動推論パラダイムに基づくフレームワークであるDIVER(Dynamic Iterative Visual Evidence Reasoning)を提案する。
Weibo、Weibo21、GossipCopの実験では、DIVERは最先端のベースラインを平均2.72%上回っている。
- 参考スコア(独自算出の注目度): 6.225860651499494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal fake news detection is crucial for mitigating adversarial misinformation. Existing methods, relying on static fusion or LLMs, face computational redundancy and hallucination risks due to weak visual foundations. To address this, we propose DIVER (Dynamic Iterative Visual Evidence Reasoning), a framework grounded in a progressive, evidence-driven reasoning paradigm. DIVER first establishes a strong text-based baseline through language analysis, leveraging intra-modal consistency to filter unreliable or hallucinated claims. Only when textual evidence is insufficient does the framework introduce visual information, where inter-modal alignment verification adaptively determines whether deeper visual inspection is necessary. For samples exhibiting significant cross-modal semantic discrepancies, DIVER selectively invokes fine-grained visual tools (e.g., OCR and dense captioning) to extract task-relevant evidence, which is iteratively aggregated via uncertainty-aware fusion to refine multimodal reasoning. Experiments on Weibo, Weibo21, and GossipCop demonstrate that DIVER outperforms state-of-the-art baselines by an average of 2.72\%, while optimizing inference efficiency with a reduced latency of 4.12 s.
- Abstract(参考訳): 多モーダル偽ニュース検出は、敵対的誤報の軽減に不可欠である。
既存の手法は、静的融合(英語版)やLLMに依存し、弱い視覚基盤による計算冗長性と幻覚リスクに直面している。
この問題に対処するため、我々は、進歩的でエビデンス駆動の推論パラダイムに基づくフレームワークであるDIVER(Dynamic Iterative Visual Evidence Reasoning)を提案する。
DIVERはまず言語分析を通じて強力なテキストベースのベースラインを確立し、モジュール内一貫性を活用して信頼性の低いクレームや幻覚的クレームをフィルタリングする。
テキストによる証拠が不十分な場合にのみ、このフレームワークは視覚情報を導入し、モーダル間アライメントのアライメントにより、より深い視覚検査が必要であるかどうかを適応的に判断する。
重要なクロスモーダルなセマンティックな相違を示すサンプルに対して、DIVERは細粒度の視覚ツール(例えばOCRや高密度キャプション)を選択的に呼び出し、タスク関連証拠を抽出する。
Weibo、Weibo21、GossipCopの実験では、DIVERは平均2.72 %で最先端のベースラインを上回り、推論効率を4.12 sで最適化している。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations [56.816929931908824]
マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
論文 参考訳(メタデータ) (2025-09-16T04:18:48Z) - Multimodal Fact Checking with Unified Visual, Textual, and Contextual Representations [2.139909491081949]
我々は"MultiCheck"と呼ばれる微細なマルチモーダル事実検証のための統一的なフレームワークを提案する。
我々のアーキテクチャは、テキストと画像のための専用エンコーダと、要素間相互作用を用いた相互関係をキャプチャする融合モジュールを組み合わせる。
我々はFactify 2データセットに対する我々のアプローチを評価し、F1の重み付けスコア0.84を達成し、ベースラインを大幅に上回った。
論文 参考訳(メタデータ) (2025-08-07T07:36:53Z) - ONLY: One-Layer Intervention Sufficiently Mitigates Hallucinations in Large Vision-Language Models [67.75439511654078]
LVLM(Large Vision-Language Models)は、テキスト応答による画像入力の理解と推論のための新しいパラダイムを導入している。
彼らは幻覚という永続的な課題に直面しており、現実のアプリケーションに信頼性のあるデプロイを行うことについて懸念を抱き、実践的な弱点をもたらしている。
OnLYは,1つのクエリと1層の介入しか必要とせず,効率的なリアルタイムデプロイメントを実現するためのトレーニング不要なデコーディング手法である。
論文 参考訳(メタデータ) (2025-07-01T16:01:08Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - DEFAME: Dynamic Evidence-based FAct-checking with Multimodal Experts [35.952854524873246]
Dynamic Evidence-based FAct-checking with Multimodal Experts (DEFAME)は、オープンドメイン、テキストイメージクレーム検証のためのゼロショットMLLMパイプラインである。
DEFAMEは6段階のプロセスで動作し、ツールと検索深度を動的に選択し、テキストおよび視覚的証拠を抽出し、評価する。
論文 参考訳(メタデータ) (2024-12-13T19:11:18Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。