論文の概要: Cross-modal Contrastive Learning for Multimodal Fake News Detection
- arxiv url: http://arxiv.org/abs/2302.14057v2
- Date: Fri, 11 Aug 2023 13:48:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 17:20:52.771319
- Title: Cross-modal Contrastive Learning for Multimodal Fake News Detection
- Title(参考訳): マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習
- Authors: Longzheng Wang, Chuang Zhang, Hongbo Xu, Yongxiu Xu, Xiaohan Xu, Siqi
Wang
- Abstract要約: COOLANTはマルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークである。
クロスモーダル融合モジュールは、クロスモーダル相関を学習するために開発された。
アテンションガイダンスモジュールは、アライメントされたユニモーダル表現を効果的かつ解釈可能に集約するために実装される。
- 参考スコア(独自算出の注目度): 10.760000041969139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic detection of multimodal fake news has gained a widespread attention
recently. Many existing approaches seek to fuse unimodal features to produce
multimodal news representations. However, the potential of powerful cross-modal
contrastive learning methods for fake news detection has not been well
exploited. Besides, how to aggregate features from different modalities to
boost the performance of the decision-making process is still an open question.
To address that, we propose COOLANT, a cross-modal contrastive learning
framework for multimodal fake news detection, aiming to achieve more accurate
image-text alignment. To further improve the alignment precision, we leverage
an auxiliary task to soften the loss term of negative samples during the
contrast process. A cross-modal fusion module is developed to learn the
cross-modality correlations. An attention mechanism with an attention guidance
module is implemented to help effectively and interpretably aggregate the
aligned unimodal representations and the cross-modality correlations. Finally,
we evaluate the COOLANT and conduct a comparative study on two widely used
datasets, Twitter and Weibo. The experimental results demonstrate that our
COOLANT outperforms previous approaches by a large margin and achieves new
state-of-the-art results on the two datasets.
- Abstract(参考訳): 近年,マルチモーダルフェイクニュースの自動検出が注目されている。
既存の多くのアプローチは、マルチモーダルなニュース表現を生成するためにユニモーダル機能を融合させようとしている。
しかし,偽ニュース検出のための強力なクロスモーダルコントラスト学習手法は十分に活用されていない。
さらに、さまざまなモダリティから機能を集約して意思決定プロセスのパフォーマンスを高める方法も、まだ未解決の問題です。
そこで我々は,より正確な画像テキストアライメントを実現することを目的とした,マルチモーダルフェイクニュース検出のためのクロスモーダルコントラスト学習フレームワークであるCOOLANTを提案する。
さらにアライメント精度を向上させるため,コントラストプロセス中に負サンプルの損失項を軟化するために補助タスクを利用する。
クロスモダリティ相関を学ぶためにクロスモダリティ融合モジュールを開発した。
注目誘導モジュールを用いたアテンションメカニズムを実装し、アライメントされた不動表現とモダリティ間の相関を効果的に解釈する。
最後に、COOLANTを評価し、TwitterとWeiboの2つの広く使われているデータセットの比較研究を行う。
実験の結果, 冷却剤は従来の方法よりも大きなマージンで勝っており, 2つのデータセットで最新の結果が得られた。
関連論文リスト
- Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching [53.05954114863596]
画像テキストマッチングのための新しいDeep Boosting Learning (DBL)アルゴリズムを提案する。
アンカーブランチは、まずデータプロパティに関する洞察を提供するために訓練される。
ターゲットブランチは、一致したサンプルと未一致のサンプルとの相対距離をさらに拡大するために、より適応的なマージン制約を同時に課される。
論文 参考訳(メタデータ) (2024-04-28T08:44:28Z) - From Text to Pixels: A Context-Aware Semantic Synergy Solution for
Infrared and Visible Image Fusion [66.33467192279514]
我々は、テキスト記述から高レベルなセマンティクスを活用し、赤外線と可視画像のセマンティクスを統合するテキスト誘導多モード画像融合法を提案する。
本手法は,視覚的に優れた融合結果を生成するだけでなく,既存の手法よりも高い検出mAPを達成し,最先端の結果を得る。
論文 参考訳(メタデータ) (2023-12-31T08:13:47Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Similarity-Aware Multimodal Prompt Learning for Fake News Detection [0.12396474483677114]
マルチモーダルフェイクニュース検出は、テキストのみの方法よりも優れています。
本稿では,Simisity-Aware Multimodal Prompt Learning (SAMPLE) フレームワークを提案する。
評価のために、SAMPLEはF1と以前の2つのベンチマークマルチモーダルデータセットの精度を上回っている。
論文 参考訳(メタデータ) (2023-04-09T08:10:05Z) - Multi-modal Fake News Detection on Social Media via Multi-grained
Information Fusion [21.042970740577648]
偽ニュース検出のためのMMFN(Multi-fine Multi-modal Fusion Network)を提案する。
そこで我々は,トランスフォーマーを用いた事前学習モデルを用いて,テキストと画像からトークンレベルの特徴を符号化する。
マルチモーダルモジュールは、CLIPエンコーダでエンコードされた粗い機能を考慮して、きめ細かい機能をフューズする。
論文 参考訳(メタデータ) (2023-04-03T09:13:59Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - Multimodal Fake News Detection via CLIP-Guided Learning [26.093561485807832]
本稿では、FND-CLIPフレームワーク、すなわち、コントラスト言語-画像事前学習(CLIP)に基づくマルチモーダルフェイクニュース検出ネットワークを提案する。
対象とするマルチモーダルニュースから,ResNetベースのエンコーダ,BERTベースのエンコーダ,および2つのペアワイズCLIPエンコーダを用いて,画像とテキストから深層表現を抽出する。
マルチモーダル特徴は、2つのモーダルの標準化されたクロスモーダル類似性によって重み付けられたCLIP生成特徴の連結である。
論文 参考訳(メタデータ) (2022-05-28T02:43:18Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - Universal Weighting Metric Learning for Cross-Modal Matching [79.32133554506122]
クロスモーダルマッチングは、視覚領域と言語領域の両方において、注目すべき研究トピックである。
クロスモーダルマッチングのためのシンプルで解釈可能な普遍重み付けフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-07T13:16:45Z) - Multimodal Categorization of Crisis Events in Social Media [81.07061295887172]
本稿では,画像とテキストの両方を入力として利用するマルチモーダル融合法を提案する。
特に、弱モダリティから非形式的および誤解を招くコンポーネントをフィルタリングできるクロスアテンションモジュールを導入する。
本手法は,3つの危機関連タスクにおいて,一様アプローチと強いマルチモーダルベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-04-10T06:31:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。