論文の概要: MM-FusionNet: Context-Aware Dynamic Fusion for Multi-modal Fake News Detection with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.05684v1
- Date: Tue, 05 Aug 2025 21:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.927315
- Title: MM-FusionNet: Context-Aware Dynamic Fusion for Multi-modal Fake News Detection with Large Vision-Language Models
- Title(参考訳): MM-FusionNet:大規模視覚言語モデルを用いたマルチモーダルフェイクニュース検出のためのコンテキスト認識動的フュージョン
- Authors: Junhao He, Tianyu Liu, Jingyuan Zhao, Benjamin Turner,
- Abstract要約: ソーシャルメディア上でのマルチモーダルフェイクニュースの拡散は、公共の信頼と社会的安定に重大な脅威をもたらす。
従来の検出方法(主にテキストベース)は、誤解を招くテキストと画像間の誤認識によってしばしば不足する。
本稿では,マルチモーダルなフェイクニュース検出にLVLMを活用する革新的なフレームワークMM-FusionNetを紹介する。
- 参考スコア(独自算出の注目度): 6.50724643327177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of multi-modal fake news on social media poses a significant threat to public trust and social stability. Traditional detection methods, primarily text-based, often fall short due to the deceptive interplay between misleading text and images. While Large Vision-Language Models (LVLMs) offer promising avenues for multi-modal understanding, effectively fusing diverse modal information, especially when their importance is imbalanced or contradictory, remains a critical challenge. This paper introduces MM-FusionNet, an innovative framework leveraging LVLMs for robust multi-modal fake news detection. Our core contribution is the Context-Aware Dynamic Fusion Module (CADFM), which employs bi-directional cross-modal attention and a novel dynamic modal gating network. This mechanism adaptively learns and assigns importance weights to textual and visual features based on their contextual relevance, enabling intelligent prioritization of information. Evaluated on the large-scale Multi-modal Fake News Dataset (LMFND) comprising 80,000 samples, MM-FusionNet achieves a state-of-the-art F1-score of 0.938, surpassing existing multi-modal baselines by approximately 0.5% and significantly outperforming single-modal approaches. Further analysis demonstrates the model's dynamic weighting capabilities, its robustness to modality perturbations, and performance remarkably close to human-level, underscoring its practical efficacy and interpretability for real-world fake news detection.
- Abstract(参考訳): ソーシャルメディア上でのマルチモーダルフェイクニュースの拡散は、公共の信頼と社会的安定に重大な脅威をもたらす。
従来の検出方法(主にテキストベース)は、誤解を招くテキストと画像間の誤認識によってしばしば不足する。
LVLM(Large Vision-Language Models)はマルチモーダル理解のための有望な道を提供するが、特にその重要性が不均衡あるいは矛盾している場合、様々なモーダル情報を効果的に融合させることは重要な課題である。
本稿では,マルチモーダルなフェイクニュース検出にLVLMを活用する革新的なフレームワークMM-FusionNetを紹介する。
我々のコアコントリビューションは、双方向のクロスモーダルアテンションと、新しい動的モーダルゲーティングネットワークを利用する、Context-Aware Dynamic Fusion Module (CADFM)である。
このメカニズムは、文脈的関連性に基づいて、重要な重み付けをテキストや視覚的特徴に適応的に学習し、割り当て、情報のインテリジェントな優先順位付けを可能にする。
80,000サンプルからなる大規模マルチモーダルフェイクニュースデータセット(LMFND)で評価すると、MM-FusionNetは0.938の最先端のF1スコアを達成し、既存のマルチモーダルベースラインを約0.5%越え、シングルモーダルアプローチを大幅に上回っている。
さらなる分析では、モデルの動的重み付け能力、モダリティの摂動に対する頑健さ、人間レベルに著しく近い性能が示され、実際の偽ニュース検出の実用性と解釈性を示している。
関連論文リスト
- Multimodal Inverse Attention Network with Intrinsic Discriminant Feature Exploitation for Fake News Detection [6.377687638891252]
マルチモーダルフェイクニュース検出は、社会保障に深く影響しているため、大きな注目を集めている。
本稿では,ニュースコンテンツに基づく固有識別特徴を探索し,偽ニュース検出を推し進める新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-02-03T07:58:22Z) - Modality Interactive Mixture-of-Experts for Fake News Detection [13.508494216511094]
フェイクニュース検出のためのModality Interactive Mixture-of-Experts(MIMoE-FND)を提案する。
MIMoE-FNDは、マルチモーダルフェイクニュース検出を強化するために設計された、新しい階層型Mixture-of-Expertsフレームワークである。
2つの言語にまたがる3つの実世界のベンチマークに対する我々のアプローチを評価し、最先端の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2025-01-21T16:49:00Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - MDF: A Dynamic Fusion Model for Multi-modal Fake News Detection [0.41942958779358674]
フェイクニュース検出のためのMDFと呼ばれる新しい動的融合フレームワークを提案する。
本モデルは,(1)モーダル内不確実性をモデル化するためのマルチヘッドアテンション機構を用いた不確実性モデリングモジュールとしてのUEM,(2)DFNは2つのモーダルの重みを動的に融合させるD-Sエビデンス理論に基づく動的融合モジュールである。
論文 参考訳(メタデータ) (2024-06-28T09:24:52Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - MMICT: Boosting Multi-Modal Fine-Tuning with In-Context Examples [63.78384552789171]
本稿では,新しいマルチモーダル微調整パラダイムであるMMICTを紹介する。
M-Hub(Multi-Modal Hub)は,異なる入力や目的に応じて様々なマルチモーダル特徴をキャプチャするモジュールである。
M-Hubに基づいてMMICTは、MM-LLMがコンテキスト内視覚誘導されたテキスト特徴から学習し、その後、テキスト誘導された視覚特徴に基づいて条件付き出力を生成する。
論文 参考訳(メタデータ) (2023-12-11T13:11:04Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。