論文の概要: Frequency Spectrum is More Effective for Multimodal Representation and
Fusion: A Multimodal Spectrum Rumor Detector
- arxiv url: http://arxiv.org/abs/2312.11023v1
- Date: Mon, 18 Dec 2023 08:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:39:11.327001
- Title: Frequency Spectrum is More Effective for Multimodal Representation and
Fusion: A Multimodal Spectrum Rumor Detector
- Title(参考訳): 周波数スペクトルはマルチモーダル表現と融合に有効である:マルチモーダルスペクトル放射検出器
- Authors: An Lao, Qi Zhang, Chongyang Shi, Longbing Cao, Kun Yi, Liang Hu,
Duoqian Miao
- Abstract要約: 画像とテキストを混在させるようなマルチモーダルコンテンツは、ソーシャルメディアにおける噂検出に重大な課題をもたらす。
この研究は、空間的特徴を周波数スペクトルに効率的に変換する周波数領域におけるマルチモーダル噂検出の最初の試みである。
二重コントラスト学習を用いた新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにする。
- 参考スコア(独自算出の注目度): 42.079129968058275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal content, such as mixing text with images, presents significant
challenges to rumor detection in social media. Existing multimodal rumor
detection has focused on mixing tokens among spatial and sequential locations
for unimodal representation or fusing clues of rumor veracity across
modalities. However, they suffer from less discriminative unimodal
representation and are vulnerable to intricate location dependencies in the
time-consuming fusion of spatial and sequential tokens. This work makes the
first attempt at multimodal rumor detection in the frequency domain, which
efficiently transforms spatial features into the frequency spectrum and obtains
highly discriminative spectrum features for multimodal representation and
fusion. A novel Frequency Spectrum Representation and fUsion network (FSRU)
with dual contrastive learning reveals the frequency spectrum is more effective
for multimodal representation and fusion, extracting the informative components
for rumor detection. FSRU involves three novel mechanisms: utilizing the
Fourier transform to convert features in the spatial domain to the frequency
domain, the unimodal spectrum compression, and the cross-modal spectrum
co-selection module in the frequency domain. Substantial experiments show that
FSRU achieves satisfactory multimodal rumor detection performance.
- Abstract(参考訳): テキストと画像の混合などのマルチモーダルコンテンツは、ソーシャルメディアにおけるうわさ検出に重大な課題がある。
既存のマルチモーダルなうわさの検出は、ユニモーダル表現のための空間的および逐次的な場所間のトークンの混合に重点を置いている。
しかし、識別的なユニモーダル表現が少なく、空間トークンとシーケンシャルトークンの時間を要する融合において複雑な位置依存性に弱い。
この研究は、周波数領域におけるマルチモーダルなうわさ検出の最初の試みであり、空間的特徴を周波数スペクトルに効率的に変換し、マルチモーダル表現と融合のための高識別スペクトル特徴を得る。
デュアルコントラスト学習による新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにし、噂検出のための情報成分を抽出する。
FSRUは、空間領域の特徴を周波数領域に変換するフーリエ変換、周波数領域における非モードスペクトル圧縮、周波数領域におけるクロスモーダルスペクトル共選択モジュールの3つの新しいメカニズムを含む。
実測実験により,FSRUは良好なマルチモーダル噂検出性能を発揮することが示された。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Dual-path Frequency Discriminators for Few-shot Anomaly Detection [44.6028365714557]
工業生産にはFSAD(Few-shot Anomaly Detection)が不可欠である。
本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminatorsネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T02:17:59Z) - Frequency-Adaptive Pan-Sharpening with Mixture of Experts [22.28680499480492]
パンシャーピングのための新しい周波数適応型エキスパート混合学習フレームワーク(FAME)を提案する。
本手法は他の最先端技術に対して最善を尽くし,現実のシーンに対して強力な一般化能力を有する。
論文 参考訳(メタデータ) (2024-01-04T08:58:25Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Deep Fourier Up-Sampling [100.59885545206744]
フーリエ領域のアップサンプリングは、そのような局所的な性質に従わないため、より難しい。
これらの問題を解決するために理論的に健全なDeep Fourier Up-Sampling (FourierUp)を提案する。
論文 参考訳(メタデータ) (2022-10-11T06:17:31Z) - Multi-Scale Wavelet Transformer for Face Forgery Detection [43.33712402517951]
顔偽造検出のためのマルチスケールウェーブレットトランスフォーマフレームワークを提案する。
周波数に基づく空間的注意は、空間的特徴抽出器をフォージェリトレースに集中させるよう誘導するように設計されている。
空間的特徴と周波数特徴を融合させるため,モーダリティ間の注意が提案されている。
論文 参考訳(メタデータ) (2022-10-08T03:39:36Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。