論文の概要: Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2509.25991v1
- Date: Tue, 30 Sep 2025 09:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.081583
- Title: Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline
- Title(参考訳): ソーシャルメディアにおける統一型マルチモーダル誤情報検出に向けて:ベンチマークデータセットとベースライン
- Authors: Haiyang Li, Yaxiong Wang, Lianwei Wu, Lechao Cheng, Zhun Zhong,
- Abstract要約: 詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
- 参考スコア(独自算出の注目度): 53.74701603784333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, detecting fake multimodal content on social media has drawn increasing attention. Two major forms of deception dominate: human-crafted misinformation (e.g., rumors and misleading posts) and AI-generated content produced by image synthesis models or vision-language models (VLMs). Although both share deceptive intent, they are typically studied in isolation. NLP research focuses on human-written misinformation, while the CV community targets AI-generated artifacts. As a result, existing models are often specialized for only one type of fake content. In real-world scenarios, however, the type of a multimodal post is usually unknown, limiting the effectiveness of such specialized systems. To bridge this gap, we construct the Omnibus Dataset for Multimodal News Deception (OmniFake), a comprehensive benchmark of 127K samples that integrates human-curated misinformation from existing resources with newly synthesized AI-generated examples. Based on this dataset, we propose Unified Multimodal Fake Content Detection (UMFDet), a framework designed to handle both forms of deception. UMFDet leverages a VLM backbone augmented with a Category-aware Mixture-of-Experts (MoE) Adapter to capture category-specific cues, and an attribution chain-of-thought mechanism that provides implicit reasoning guidance for locating salient deceptive signals. Extensive experiments demonstrate that UMFDet achieves robust and consistent performance across both misinformation types, outperforming specialized baselines and offering a practical solution for real-world multimodal deception detection.
- Abstract(参考訳): 近年,ソーシャルメディア上での偽のマルチモーダルコンテンツの検出が注目されている。
人造誤報(噂や誤解を招く記事など)と、画像合成モデルや視覚言語モデル(VLM)によって生成されたAI生成コンテンツである。
両者は偽りの意図を共有しているが、通常は孤立して研究されている。
NLP研究は人間による誤情報に焦点を当て、CVコミュニティはAIが生成する人工物をターゲットにしている。
結果として、既存のモデルは、しばしば1種類の偽コンテンツにのみ特化される。
しかし、現実のシナリオでは、マルチモーダルポストの型は通常不明であり、そのような特殊なシステムの有効性を制限している。
このギャップを埋めるために、我々はOmnibus Dataset for Multimodal News Deception (OmniFake)を構築した。
本データセットに基づいて,両形態の偽造を扱うためのフレームワークであるUnified Multimodal Fake Content Detection (UMFDet)を提案する。
UMFDetは、カテゴリー固有の手がかりを捉えるためのMoEアダプタと、暗黙の推論ガイダンスを提供する帰属チェーン・オブ・シント機構を付加したVLMバックボーンを利用する。
広範な実験により、UMFDetは、両方の誤情報タイプにまたがって堅牢で一貫したパフォーマンスを達成し、特殊なベースラインを上回り、実世界のマルチモーダル偽造検出のための実用的なソリューションを提供することを示した。
関連論文リスト
- SVC 2025: the First Multimodal Deception Detection Challenge [16.070848946361696]
SVC 2025 Multimodal Deception Detection Challengeは、音声・視覚的偽装検出におけるクロスドメインの一般化を評価するために設計された新しいベンチマークである。
我々は,より適応し,説明し,実践的に展開可能な偽造検知システムの開発を促進することを目的としている。
論文 参考訳(メタデータ) (2025-08-06T06:56:39Z) - GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。
異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。
本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-09T08:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。