論文の概要: Towards Robust and Realible Multimodal Misinformation Recognition with Incomplete Modality
- arxiv url: http://arxiv.org/abs/2510.05839v3
- Date: Tue, 14 Oct 2025 02:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 12:06:24.230551
- Title: Towards Robust and Realible Multimodal Misinformation Recognition with Incomplete Modality
- Title(参考訳): 不完全モダリティを用いたロバストかつ実現可能なマルチモーダル誤情報認識に向けて
- Authors: Hengyang Zhou, Yiwei Wei, Jian Yang, Zhenyu Zhang,
- Abstract要約: ソーシャルメディアプラットフォーム上に巨大なマルチモーダルフェイクコンテンツが出現するに伴い、マルチモーダル誤情報認識が緊急課題となっている。
我々は、MMLNet(Multi-expert Modality-Incomplete Learning Network)と呼ばれる、新しい汎用的で堅牢なマルチモーダル融合戦略を提案する。
MMLNetを2つの言語にまたがる3つの実世界のベンチマークで評価し、最先端の手法と比較して優れた性能を示した。
- 参考スコア(独自算出の注目度): 20.58863442533736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Misinformation Recognition has become an urgent task with the emergence of huge multimodal fake content on social media platforms. Previous studies mainly focus on complex feature extraction and fusion to learn discriminative information from multimodal content. However, in real-world applications, multimedia news may naturally lose some information during dissemination, resulting in modality incompleteness, which is detrimental to the generalization and robustness of existing models. To this end, we propose a novel generic and robust multimodal fusion strategy, termed Multi-expert Modality-incomplete Learning Network (MMLNet), which is simple yet effective. It consists of three key steps: (1) Multi-Expert Collaborative Reasoning to compensate for missing modalities by dynamically leveraging complementary information through multiple experts. (2) Incomplete Modality Adapters compensates for the missing information by leveraging the new feature distribution. (3) Modality Missing Learning leveraging an label-aware adaptive weighting strategy to learn a robust representation with contrastive learning. We evaluate MMLNet on three real-world benchmarks across two languages, demonstrating superior performance compared to state-of-the-art methods while maintaining relative simplicity. By ensuring the accuracy of misinformation recognition in incomplete modality scenarios caused by information propagation, MMLNet effectively curbs the spread of malicious misinformation. Code is publicly available at https://github.com/zhyhome/MMLNet.
- Abstract(参考訳): ソーシャルメディアプラットフォーム上に巨大なマルチモーダルフェイクコンテンツが出現するに伴い、マルチモーダル誤情報認識が緊急課題となっている。
これまでの研究は主に、多モーダルコンテンツから識別情報を学習するための複雑な特徴抽出と融合に焦点を当ててきた。
しかし、現実の応用においては、マルチメディアニュースは、拡散中に自然に情報を失う可能性があり、その結果、モダリティの不完全性は、既存のモデルの一般化と堅牢性に有害である。
そこで本研究では,MMLNet(Multi-expert Modality-Incomplete Learning Network)と呼ばれる,汎用的で堅牢なマルチモーダル融合戦略を提案する。
1) 複数の専門家による補完情報を動的に活用することにより、欠落したモダリティを補うための多専門家協調推論。
2)不完全なモダリティ適応器は,特徴分布を利用して不足情報を補う。
(3) 適応重み付け戦略を活用するモダリティの欠如学習は、対照的な学習で頑健な表現を学習する。
我々は,MMLNetを2言語にわたる3つの実世界のベンチマークで評価し,比較的単純さを維持しつつ,最先端の手法と比較して優れた性能を示した。
情報伝播による不完全なモダリティシナリオにおける誤報認識の精度を確保することにより、悪意のある誤報の拡散を効果的に抑制する。
コードはhttps://github.com/zhyhome/MMLNetで公開されている。
関連論文リスト
- MM-FusionNet: Context-Aware Dynamic Fusion for Multi-modal Fake News Detection with Large Vision-Language Models [6.50724643327177]
ソーシャルメディア上でのマルチモーダルフェイクニュースの拡散は、公共の信頼と社会的安定に重大な脅威をもたらす。
従来の検出方法(主にテキストベース)は、誤解を招くテキストと画像間の誤認識によってしばしば不足する。
本稿では,マルチモーダルなフェイクニュース検出にLVLMを活用する革新的なフレームワークMM-FusionNetを紹介する。
論文 参考訳(メタデータ) (2025-08-05T21:27:13Z) - Adaptive Learning of Consistency and Inconsistency Information for Fake News Detection [28.718460312783257]
偽ニュースを検出するために,適応型マルチモーダル機能融合ネットワーク(MFF-Net)を提案する。
MFF-Netは複数の機能融合モジュールを通じてモード間の整合性情報を学習する。
実際のソーシャルメディアから派生した3つの公開ニュースデータセットにおいて、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-15T08:22:10Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Inconsistent Matters: A Knowledge-guided Dual-consistency Network for
Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。
2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。
また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文 参考訳(メタデータ) (2023-06-03T15:32:20Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。