論文の概要: Multimodal Rumor Detection Enhanced by External Evidence and Forgery Features
- arxiv url: http://arxiv.org/abs/2601.14954v1
- Date: Wed, 21 Jan 2026 12:53:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.364019
- Title: Multimodal Rumor Detection Enhanced by External Evidence and Forgery Features
- Title(参考訳): 外的エビデンスと偽造によるマルチモーダル騒音検出
- Authors: Han Li, Hua Sun,
- Abstract要約: ソーシャルメディアは、画像テキストの混合投稿を通じて情報を広める傾向が強まっている。
深いセマンティックなミスマッチの噂は、特定の課題を引き起こし、オンラインの世論を脅かす。
既存のマルチモーダル噂検出手法は,限られた特徴抽出,ノイズアライメント,非フレキシブル融合戦略に悩まされている。
外部証拠と偽造特徴を付加したマルチモーダルな噂検出モデルを提案する。
- 参考スコア(独自算出の注目度): 21.522558828688343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media increasingly disseminates information through mixed image text posts, but rumors often exploit subtle inconsistencies and forged content, making detection based solely on post content difficult. Deep semantic mismatch rumors, which superficially align images and texts, pose particular challenges and threaten online public opinion. Existing multimodal rumor detection methods improve cross modal modeling but suffer from limited feature extraction, noisy alignment, and inflexible fusion strategies, while ignoring external factual evidence necessary for verifying complex rumors. To address these limitations, we propose a multimodal rumor detection model enhanced with external evidence and forgery features. The model uses a ResNet34 visual encoder, a BERT text encoder, and a forgery feature module extracting frequency-domain traces and compression artifacts via Fourier transformation. BLIP-generated image descriptions bridge image and text semantic spaces. A dual contrastive learning module computes contrastive losses between text image and text description pairs, improving detection of semantic inconsistencies. A gated adaptive feature-scaling fusion mechanism dynamically adjusts multimodal fusion and reduces redundancy. Experiments on Weibo and Twitter datasets demonstrate that our model outperforms mainstream baselines in macro accuracy, recall, and F1 score.
- Abstract(参考訳): ソーシャルメディアは画像テキストの混合投稿を通じて情報を拡散する傾向にあるが、噂では微妙な矛盾や偽のコンテンツを悪用することが多く、ポストコンテンツのみに基づく検出は困難である。
画像やテキストを表面的に調整する、深いセマンティックなミスマッチの噂は、特定の課題を引き起こし、オンラインの世論を脅かす。
既存のマルチモーダル噂検出手法は、クロスモーダルモデリングを改善するが、複雑な噂を検証するのに必要な外部の事実証拠を無視しながら、限られた特徴抽出、ノイズアライメント、および非フレキシブル融合戦略に苦しむ。
これらの制約に対処するため,外的証拠と偽造的特徴を付加したマルチモーダルな噂検出モデルを提案する。
このモデルは、ResNet34ビジュアルエンコーダ、BERTテキストエンコーダ、およびフーリエ変換を介して周波数領域トレースと圧縮アーティファクトを抽出する偽機能モジュールを使用する。
BLIP生成画像記述は、ブリッジ画像とテキスト意味空間を記述する。
デュアルコントラスト学習モジュールは、テキスト画像とテキスト記述ペア間のコントラスト損失を計算し、意味的不整合の検出を改善する。
ゲート適応型機能スケーリング融合機構はマルチモーダル核融合を動的に調整し、冗長性を低減させる。
WeiboとTwitterのデータセットの実験では、我々のモデルはマクロ精度、リコール、F1スコアでメインストリームのベースラインを上回っている。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - Multimodal Feature Fusion Network with Text Difference Enhancement for Remote Sensing Change Detection [36.96267014127019]
MMChangeは画像とテキストのモダリティを組み合わせて精度とロバスト性を高めるマルチモーダルRSCD手法である。
画像特徴のセマンティックな制限を克服するために、視覚言語モデル(VLM)を用いてバイテンポラル画像の意味的記述を生成する。
テキスト差分拡張(TDE)モジュールは細粒度のセマンティックシフトをキャプチャし、モデルを意味のある変化へと導く。
論文 参考訳(メタデータ) (2025-09-04T07:39:18Z) - NOFT: Test-Time Noise Finetune via Information Bottleneck for Highly Correlated Asset Creation [70.96827354717459]
拡散モデルは、テキスト・ツー・イメージ(T2I)と画像・ツー・イメージ(I2I)を生成する強力なツールを提供する。
本研究では,高相関・多彩な画像を生成するため,安定拡散を用いたノイズファインチューンNOFTモジュールを提案する。
論文 参考訳(メタデータ) (2025-05-18T05:09:47Z) - Text-DiFuse: An Interactive Multi-Modal Image Fusion Framework based on Text-modulated Diffusion Model [30.739879255847946]
既存のマルチモーダル画像融合法では、ソース画像に示される複合劣化に対処できない。
本研究では,テキスト変調拡散モデルであるText-DiFuseに基づく,インタラクティブなマルチモーダル画像融合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-31T13:10:50Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。
我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文 参考訳(メタデータ) (2024-02-02T12:39:49Z) - Benchmarking Robustness of Multimodal Image-Text Models under
Distribution Shift [50.64474103506595]
本稿では,5つのタスクに対する共通の摂動下での12のオープンソース画像テキストモデルの堅牢性について検討する。
文字レベルの摂動はテキストの最も深刻な分布シフトであり、ズームボケは画像データにとって最も深刻なシフトである。
論文 参考訳(メタデータ) (2022-12-15T18:52:03Z) - Multimodal Fake News Detection with Adaptive Unimodal Representation
Aggregation [28.564442206829625]
AURAは、適応的な一助表現アグリゲーションを備えたマルチモーダルフェイクニュース検出ネットワークである。
我々は,一様および多様の表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。
WeiboとGossipcopの実験は、AURAがいくつかの最先端のFNDスキームに勝つことを証明している。
論文 参考訳(メタデータ) (2022-06-12T14:06:55Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。