論文の概要: Multimodal Fake News Detection via CLIP-Guided Learning
- arxiv url: http://arxiv.org/abs/2205.14304v1
- Date: Sat, 28 May 2022 02:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-05 00:10:29.131245
- Title: Multimodal Fake News Detection via CLIP-Guided Learning
- Title(参考訳): CLIP誘導学習によるマルチモーダルフェイクニュース検出
- Authors: Yangming Zhou, Qichao Ying, Zhenxing Qian, Sheng Li and Xinpeng Zhang
- Abstract要約: 本稿では、FND-CLIPフレームワーク、すなわち、コントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
- 参考スコア(独自算出の注目度): 26.093561485807832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal fake news detection has attracted many research interests in
social forensics. Many existing approaches introduce tailored attention
mechanisms to guide the fusion of unimodal features. However, how the
similarity of these features is calculated and how it will affect the
decision-making process in FND are still open questions. Besides, the potential
of pretrained multi-modal feature learning models in fake news detection has
not been well exploited. This paper proposes a FND-CLIP framework, i.e., a
multimodal Fake News Detection network based on Contrastive Language-Image
Pretraining (CLIP). Given a targeted multimodal news, we extract the deep
representations from the image and text using a ResNet-based encoder, a
BERT-based encoder and two pair-wise CLIP encoders. The multimodal feature is a
concatenation of the CLIP-generated features weighted by the standardized
cross-modal similarity of the two modalities. The extracted features are
further processed for redundancy reduction before feeding them into the final
classifier. We introduce a modality-wise attention module to adaptively
reweight and aggregate the features. We have conducted extensive experiments on
typical fake news datasets. The results indicate that the proposed framework
has a better capability in mining crucial features for fake news detection. The
proposed FND-CLIP can achieve better performances than previous works, i.e.,
0.7\%, 6.8\% and 1.3\% improvements in overall accuracy on Weibo, Politifact
and Gossipcop, respectively. Besides, we justify that CLIP-based learning can
allow better flexibility on multimodal feature selection.
- Abstract(参考訳): マルチモーダルフェイクニュース検出は、社会科学における多くの研究関心を惹きつけている。
既存の多くのアプローチでは、一助的特徴の融合を導くための調整された注意機構が導入されている。
しかし、これらの機能の類似性がどう計算され、それがfndの意思決定プロセスにどのように影響するかは、まだ疑問の余地がある。
さらに、偽ニュース検出における事前訓練されたマルチモーダル特徴学習モデルの可能性を十分に活用していない。
本稿では,FND-CLIPフレームワーク,すなわちコントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
抽出した特徴を最終分類器に供給する前に冗長性低減のためにさらに処理する。
特徴を適応的に重み付けし集約するモーダリティ・アテンション・モジュールを導入する。
我々は、典型的なフェイクニュースデータセットについて広範な実験を行った。
その結果,提案フレームワークは偽ニュース検出のための重要な機能をマイニングする能力が向上した。
提案するfnd-clipは,従来の作品よりも優れた性能,すなわちweibo,politifact,gossipcopにおける0.7\%,6.8\%,1.3\%の改善を達成できる。
さらに、CLIPベースの学習がマルチモーダル機能選択の柔軟性を向上させることを正当化しています。
関連論文リスト
- Multimodality Helps Few-Shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
本稿では,テキストラベルと潜在的に利用可能な2次元画像モダリティを利用して,コストフリーのマルチモーダルFS-PCSセットアップを提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダルセグ(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Cross-Modal Augmentation for Few-Shot Multimodal Fake News Detection [0.21990652930491858]
フェイクニュースを早期に検出するためには、ほとんどショットラーニングが重要である。
本稿では,一様特徴を用いたマルチモーダル特徴を付加したマルチモーダルフェイクニュース検出モデルを提案する。
提案したCMAは3つのベンチマークデータセット上でSOTA結果を達成する。
論文 参考訳(メタデータ) (2024-07-16T09:32:11Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Similarity-Aware Multimodal Prompt Learning for Fake News Detection [0.12396474483677114]
マルチモーダルフェイクニュース検出は、テキストのみの方法よりも優れています。
本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE) フレームワークを提案する。
評価のために、SAMPLEはF1と以前の2つのベンチマークマルチモーダルデータセットの精度を上回っている。
論文 参考訳(メタデータ) (2023-04-09T08:10:05Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Cross-modal Contrastive Learning for Multimodal Fake News Detection [10.760000041969139]
COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
論文 参考訳(メタデータ) (2023-02-25T10:12:34Z) - Multiverse: Multilingual Evidence for Fake News Detection [71.51905606492376]
Multiverseは、偽ニュースの検出に使用できる多言語エビデンスに基づく新機能である。
偽ニュース検出機能としての言語間証拠の使用仮説を確認した。
論文 参考訳(メタデータ) (2022-11-25T18:24:17Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Multimodal Fake News Detection with Adaptive Unimodal Representation
Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。
我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。
WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文 参考訳(メタデータ) (2022-06-12T14:06:55Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。