論文の概要: Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning
- arxiv url: http://arxiv.org/abs/2505.06796v1
- Date: Sun, 11 May 2025 00:26:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.041083
- Title: Multimodal Fake News Detection: MFND Dataset and Shallow-Deep Multitask Learning
- Title(参考訳): マルチモーダルフェイクニュース検出:MFNDデータセットと浅層マルチタスク学習
- Authors: Ye Zhu, Yunan Wang, Zitong Yu,
- Abstract要約: マルチモーダルニュースには豊富な情報が含まれており、ディープフェイク・モデリング・アタックの影響を受けやすい。
最新の画像とテキスト生成手法に対抗するために,新しいマルチモーダルフェイクニュース検出データセット(MFND)を提案する。
MFNDには11の操作されたタイプがあり、高度に認証された偽ニュースを検出し、ローカライズするように設計されている。
- 参考スコア(独自算出の注目度): 22.494473679788396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal news contains a wealth of information and is easily affected by deepfake modeling attacks. To combat the latest image and text generation methods, we present a new Multimodal Fake News Detection dataset (MFND) containing 11 manipulated types, designed to detect and localize highly authentic fake news. Furthermore, we propose a Shallow-Deep Multitask Learning (SDML) model for fake news, which fully uses unimodal and mutual modal features to mine the intrinsic semantics of news. Under shallow inference, we propose the momentum distillation-based light punishment contrastive learning for fine-grained uniform spatial image and text semantic alignment, and an adaptive cross-modal fusion module to enhance mutual modal features. Under deep inference, we design a two-branch framework to augment the image and text unimodal features, respectively merging with mutual modalities features, for four predictions via dedicated detection and localization projections. Experiments on both mainstream and our proposed datasets demonstrate the superiority of the model. Codes and dataset are released at https://github.com/yunan-wang33/sdml.
- Abstract(参考訳): マルチモーダルニュースには豊富な情報が含まれており、ディープフェイク・モデリング・アタックの影響を受けやすい。
最新の画像とテキスト生成手法に対抗するために,11種類の操作済み型を含む新しいマルチモーダルフェイクニュース検出データセット(MFND)を提案する。
さらに,疑似ニュースに対する浅層深度マルチタスク学習(SDML)モデルを提案する。
本研究では, 微粒な空間像とテキストのセマンティックアライメントのための運動量蒸留に基づく光罰の対照的な学習法を提案する。
深部推論では,画像とテキストのアンモダル特徴を融合した2ブランチのフレームワークを設計し,それぞれに専用の検出と局所化予測による4つの予測を行う。
メインストリームと提案したデータセットの両方の実験は、モデルの優越性を実証している。
コードとデータセットはhttps://github.com/yunan-wang33/sdmlで公開されている。
関連論文リスト
- Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages [0.4062349563818079]
Indic Fake News Detection (MMIFND) のためのマルチモーダル多言語データセットを提案する。
この厳密にキュレートされたデータセットは、ヒンディー語、ベンガル語、マラタイ語、マラヤラム語、タミル語、グジャラート語、パンジャービ語にまたがる28,085のインスタンスで構成されている。
フェイクニュース検出(MMCFND)のためのマルチモーダルキャプション対応フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:59:33Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Similarity-Aware Multimodal Prompt Learning for Fake News Detection [0.12396474483677114]
マルチモーダルフェイクニュース検出は、テキストのみの方法よりも優れています。
本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE) フレームワークを提案する。
評価のために、SAMPLEはF1と以前の2つのベンチマークマルチモーダルデータセットの精度を上回っている。
論文 参考訳(メタデータ) (2023-04-09T08:10:05Z) - Multimodal Fake News Detection with Adaptive Unimodal Representation
Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。
我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。
WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文 参考訳(メタデータ) (2022-06-12T14:06:55Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Novel Graph-based Multi-modal Fusion Encoder for Neural Machine
Translation [131.33610549540043]
NMTのための新しいグラフベースのマルチモーダル核融合エンコーダを提案する。
まず、統合マルチモーダルグラフを用いて、入力文と画像を表す。
次に、複数のグラフベースのマルチモーダル融合層を積み重ねて、ノード表現を学習するためのセマンティックな相互作用を反復的に実行する。
論文 参考訳(メタデータ) (2020-07-17T04:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。