論文の概要: Frequency Spectrum is More Effective for Multimodal Representation and
Fusion: A Multimodal Spectrum Rumor Detector
- arxiv url: http://arxiv.org/abs/2312.11023v1
- Date: Mon, 18 Dec 2023 08:55:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:39:11.327001
- Title: Frequency Spectrum is More Effective for Multimodal Representation and
Fusion: A Multimodal Spectrum Rumor Detector
- Title(参考訳): 周波数スペクトルはマルチモーダル表現と融合に有効である:マルチモーダルスペクトル放射検出器
- Authors: An Lao, Qi Zhang, Chongyang Shi, Longbing Cao, Kun Yi, Liang Hu,
Duoqian Miao
- Abstract要約: 画像とテキストを混在させるようなマルチモーダルコンテンツは、ソーシャルメディアにおける噂検出に重大な課題をもたらす。
この研究は、空間的特徴を周波数スペクトルに効率的に変換する周波数領域におけるマルチモーダル噂検出の最初の試みである。
二重コントラスト学習を用いた新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにする。
- 参考スコア(独自算出の注目度): 42.079129968058275
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal content, such as mixing text with images, presents significant
challenges to rumor detection in social media. Existing multimodal rumor
detection has focused on mixing tokens among spatial and sequential locations
for unimodal representation or fusing clues of rumor veracity across
modalities. However, they suffer from less discriminative unimodal
representation and are vulnerable to intricate location dependencies in the
time-consuming fusion of spatial and sequential tokens. This work makes the
first attempt at multimodal rumor detection in the frequency domain, which
efficiently transforms spatial features into the frequency spectrum and obtains
highly discriminative spectrum features for multimodal representation and
fusion. A novel Frequency Spectrum Representation and fUsion network (FSRU)
with dual contrastive learning reveals the frequency spectrum is more effective
for multimodal representation and fusion, extracting the informative components
for rumor detection. FSRU involves three novel mechanisms: utilizing the
Fourier transform to convert features in the spatial domain to the frequency
domain, the unimodal spectrum compression, and the cross-modal spectrum
co-selection module in the frequency domain. Substantial experiments show that
FSRU achieves satisfactory multimodal rumor detection performance.
- Abstract(参考訳): テキストと画像の混合などのマルチモーダルコンテンツは、ソーシャルメディアにおけるうわさ検出に重大な課題がある。
既存のマルチモーダルなうわさの検出は、ユニモーダル表現のための空間的および逐次的な場所間のトークンの混合に重点を置いている。
しかし、識別的なユニモーダル表現が少なく、空間トークンとシーケンシャルトークンの時間を要する融合において複雑な位置依存性に弱い。
この研究は、周波数領域におけるマルチモーダルなうわさ検出の最初の試みであり、空間的特徴を周波数スペクトルに効率的に変換し、マルチモーダル表現と融合のための高識別スペクトル特徴を得る。
デュアルコントラスト学習による新しい周波数スペクトル表現とfUsionネットワーク(FSRU)は、周波数スペクトルがマルチモーダル表現と融合により効果的であることを明らかにし、噂検出のための情報成分を抽出する。
FSRUは、空間領域の特徴を周波数領域に変換するフーリエ変換、周波数領域における非モードスペクトル圧縮、周波数領域におけるクロスモーダルスペクトル共選択モジュールの3つの新しいメカニズムを含む。
実測実験により,FSRUは良好なマルチモーダル噂検出性能を発揮することが示された。
関連論文リスト
- F2former: When Fractional Fourier Meets Deep Wiener Deconvolution and Selective Frequency Transformer for Image Deblurring [8.296475046681696]
本稿では、空間周波数の統一表現であるFRFT(Fractional Fourier Transform)に基づく新しい手法を提案する。
提案手法の性能は,他のSOTA手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-03T17:05:12Z) - Multiple Contexts and Frequencies Aggregation Network forDeepfake Detection [5.65128683992597]
ディープフェイク検出は、大量で多様なディープフェイク技術の開発において、生成モデルの急速な成長以来、課題に直面している。
近年の進歩は、バックボーン内の一般的な偽造特徴をモデル化するのではなく、空間領域や周波数領域からの特徴の導入に依存している。
2つのコアモジュールからなるMkfaNetという顔偽造検出のための効率的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-03T05:34:53Z) - MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection [4.165508411354963]
イベント独立ネットワークV2(EINV2)は、音事象の局所化と検出において優れた性能を発揮している。
本稿では,マルチスケール・フィーチャー・フュージョン(MFF)モジュールという3段階のネットワーク構造を提案し,スペクトル領域,空間領域,時間領域にまたがるマルチスケール特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-13T03:03:02Z) - FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining [71.46369218331215]
Image derainingは雨が降る画像から雨の跡を取り除き、透明な背景を復元することを目的としている。
本稿では,FourierMambaという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-29T18:58:59Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Dual-path Frequency Discriminators for Few-shot Anomaly Detection [12.956761809902167]
本稿では、これらの問題に対処するために、周波数観点からDual-Path Frequency Discriminator (DFD)ネットワークを提案する。
識別者は擬似アノマリーの形で共同表現を学ぶ。
MVTec AD と VisA ベンチマークで行った実験では、DFD が現在の最先端手法を超越していることが示されている。
論文 参考訳(メタデータ) (2024-03-07T02:17:59Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Deep Fourier Up-Sampling [100.59885545206744]
フーリエ領域のアップサンプリングは、そのような局所的な性質に従わないため、より難しい。
これらの問題を解決するために理論的に健全なDeep Fourier Up-Sampling (FourierUp)を提案する。
論文 参考訳(メタデータ) (2022-10-11T06:17:31Z) - Multi-Scale Wavelet Transformer for Face Forgery Detection [43.33712402517951]
顔偽造検出のためのマルチスケールウェーブレットトランスフォーマフレームワークを提案する。
周波数に基づく空間的注意は、空間的特徴抽出器をフォージェリトレースに集中させるよう誘導するように設計されている。
空間的特徴と周波数特徴を融合させるため,モーダリティ間の注意が提案されている。
論文 参考訳(メタデータ) (2022-10-08T03:39:36Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。