論文の概要: Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation
- arxiv url: http://arxiv.org/abs/2309.09667v1
- Date: Mon, 18 Sep 2023 11:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:03:06.545674
- Title: Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation
- Title(参考訳): マルチモーダル操作の検出と接地のための統一周波数アシスト変圧器フレームワーク
- Authors: Huan Liu, Zichang Tan, Qiang Chen, Yunchao Wei, Yao Zhao, Jingdong
Wang
- Abstract要約: 本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
- 参考スコア(独自算出の注目度): 109.1912721224697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting and grounding multi-modal media manipulation (DGM^4) has become
increasingly crucial due to the widespread dissemination of face forgery and
text misinformation. In this paper, we present the Unified Frequency-Assisted
transFormer framework, named UFAFormer, to address the DGM^4 problem. Unlike
previous state-of-the-art methods that solely focus on the image (RGB) domain
to describe visual forgery features, we additionally introduce the frequency
domain as a complementary viewpoint. By leveraging the discrete wavelet
transform, we decompose images into several frequency sub-bands, capturing rich
face forgery artifacts. Then, our proposed frequency encoder, incorporating
intra-band and inter-band self-attentions, explicitly aggregates forgery
features within and across diverse sub-bands. Moreover, to address the semantic
conflicts between image and frequency domains, the forgery-aware mutual module
is developed to further enable the effective interaction of disparate image and
frequency features, resulting in aligned and comprehensive visual forgery
representations. Finally, based on visual and textual forgery features, we
propose a unified decoder that comprises two symmetric cross-modal interaction
modules responsible for gathering modality-specific forgery information, along
with a fusing interaction module for aggregation of both modalities. The
proposed unified decoder formulates our UFAFormer as a unified framework,
ultimately simplifying the overall architecture and facilitating the
optimization process. Experimental results on the DGM^4 dataset, containing
several perturbations, demonstrate the superior performance of our framework
compared to previous methods, setting a new benchmark in the field.
- Abstract(参考訳): 顔偽造やテキスト誤報の拡散により, マルチモーダルメディア操作(DGM^4)の検出と接地がますます重要になっている。
本稿では、DGM^4問題に対処するため、UFAFormerという名前の統一周波数支援トランスフォーマーフレームワークを提案する。
画像(RGB)領域のみに焦点をあてて視覚的偽造の特徴を記述する従来の最先端手法とは異なり、周波数領域を補完的な視点として導入する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
次に,提案する周波数エンコーダは,帯域内およびバンド間自己接続を組み込んで,サブバンド内およびサブバンド間における偽造機能を明示的に集約する。
さらに、画像領域と周波数領域間の意味的衝突に対処するために、異なる画像と周波数特徴の効果的な相互作用を可能にするために、forgery-aware mutual moduleを開発した。
最後に,視覚およびテキストの偽造機能に基づいて,モダリティ固有の偽造情報を収集する2つの対称クロスモーダルインタラクションモジュールと,両モダリティを集約するfusingインタラクションモジュールからなる統一デコーダを提案する。
提案するunified decoderは、ufaformerを統一フレームワークとして定式化し、最終的にはアーキテクチャ全体を単純化し、最適化プロセスを促進します。
いくつかの摂動を含むDGM^4データセットの実験結果から,従来の手法と比較して,フレームワークの性能が優れていることが示され,フィールドに新たなベンチマークが設定された。
関連論文リスト
- Cross Group Attention and Group-wise Rolling for Multimodal Medical Image Synthesis [22.589087990596887]
マルチモーダルMR画像合成は、いくつかのMRIデータを融合してマッピングすることで、欠落したモダリティ画像を生成することを目的としている。
マルチモーダルMR画像合成におけるモダリティ間関係とモダリティ間関係の両方を探索するAdaptive Group-wise Interaction Network (AGI-Net)を提案する。
論文 参考訳(メタデータ) (2024-11-22T02:29:37Z) - A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - Unifying Visual and Semantic Feature Spaces with Diffusion Models for Enhanced Cross-Modal Alignment [20.902935570581207]
本稿では,マルチモーダルアライメント・アンド・リコンストラクション・ネットワーク(MARNet)を導入し,視覚ノイズに対するモデルの耐性を高める。
MARNetは、異なるドメイン間で情報をスムーズかつ安定的にブレンドする、クロスモーダル拡散再構成モジュールを含んでいる。
2つのベンチマークデータセットであるVireo-Food172とIngredient-101で実施された実験は、MARNetがモデルによって抽出された画像情報の品質を効果的に改善することを示した。
論文 参考訳(メタデータ) (2024-07-26T16:30:18Z) - Frequency Domain Modality-invariant Feature Learning for
Visible-infrared Person Re-Identification [79.9402521412239]
本稿では、周波数領域から見たモダリティの相違を低減するために、新しい周波数領域モダリティ不変特徴学習フレームワーク(FDMNet)を提案する。
我々のフレームワークでは、インスタンス適応振幅フィルタ(IAF)とPhrase-Preserving Normalization(PPNorm)という、2つの新しいモジュールを導入している。
論文 参考訳(メタデータ) (2024-01-03T17:11:27Z) - A Dual Domain Multi-exposure Image Fusion Network based on the
Spatial-Frequency Integration [57.14745782076976]
マルチ露光画像融合は、異なる露光で画像を統合することにより、単一の高ダイナミック画像を生成することを目的としている。
本稿では,MEF-SFI と呼ばれる空間周波数統合フレームワークによるマルチ露光画像融合の新たな視点を提案する。
提案手法は,最先端のマルチ露光画像融合手法に対する視覚的近似核融合結果を実現する。
論文 参考訳(メタデータ) (2023-12-17T04:45:15Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。