論文の概要: Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation
- arxiv url: http://arxiv.org/abs/2309.09667v1
- Date: Mon, 18 Sep 2023 11:06:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:03:06.545674
- Title: Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation
- Title(参考訳): マルチモーダル操作の検出と接地のための統一周波数アシスト変圧器フレームワーク
- Authors: Huan Liu, Zichang Tan, Qiang Chen, Yunchao Wei, Yao Zhao, Jingdong
Wang
- Abstract要約: 本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
- 参考スコア(独自算出の注目度): 109.1912721224697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting and grounding multi-modal media manipulation (DGM^4) has become
increasingly crucial due to the widespread dissemination of face forgery and
text misinformation. In this paper, we present the Unified Frequency-Assisted
transFormer framework, named UFAFormer, to address the DGM^4 problem. Unlike
previous state-of-the-art methods that solely focus on the image (RGB) domain
to describe visual forgery features, we additionally introduce the frequency
domain as a complementary viewpoint. By leveraging the discrete wavelet
transform, we decompose images into several frequency sub-bands, capturing rich
face forgery artifacts. Then, our proposed frequency encoder, incorporating
intra-band and inter-band self-attentions, explicitly aggregates forgery
features within and across diverse sub-bands. Moreover, to address the semantic
conflicts between image and frequency domains, the forgery-aware mutual module
is developed to further enable the effective interaction of disparate image and
frequency features, resulting in aligned and comprehensive visual forgery
representations. Finally, based on visual and textual forgery features, we
propose a unified decoder that comprises two symmetric cross-modal interaction
modules responsible for gathering modality-specific forgery information, along
with a fusing interaction module for aggregation of both modalities. The
proposed unified decoder formulates our UFAFormer as a unified framework,
ultimately simplifying the overall architecture and facilitating the
optimization process. Experimental results on the DGM^4 dataset, containing
several perturbations, demonstrate the superior performance of our framework
compared to previous methods, setting a new benchmark in the field.
- Abstract(参考訳): 顔偽造やテキスト誤報の拡散により, マルチモーダルメディア操作(DGM^4)の検出と接地がますます重要になっている。
本稿では、DGM^4問題に対処するため、UFAFormerという名前の統一周波数支援トランスフォーマーフレームワークを提案する。
画像(RGB)領域のみに焦点をあてて視覚的偽造の特徴を記述する従来の最先端手法とは異なり、周波数領域を補完的な視点として導入する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
次に,提案する周波数エンコーダは,帯域内およびバンド間自己接続を組み込んで,サブバンド内およびサブバンド間における偽造機能を明示的に集約する。
さらに、画像領域と周波数領域間の意味的衝突に対処するために、異なる画像と周波数特徴の効果的な相互作用を可能にするために、forgery-aware mutual moduleを開発した。
最後に,視覚およびテキストの偽造機能に基づいて,モダリティ固有の偽造情報を収集する2つの対称クロスモーダルインタラクションモジュールと,両モダリティを集約するfusingインタラクションモジュールからなる統一デコーダを提案する。
提案するunified decoderは、ufaformerを統一フレームワークとして定式化し、最終的にはアーキテクチャ全体を単純化し、最適化プロセスを促進します。
いくつかの摂動を含むDGM^4データセットの実験結果から,従来の手法と比較して,フレームワークの性能が優れていることが示され,フィールドに新たなベンチマークが設定された。
関連論文リスト
- Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Transfering Low-Frequency Features for Domain Adaptation [44.86474562827323]
我々は低周波モジュール(LFM)と呼ばれるアプローチを導入し、ドメイン不変の特徴表現を抽出する。
実験の結果,LFMは様々なコンピュータビジョンタスクの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-31T09:13:25Z) - Generalizable Medical Image Segmentation via Random Amplitude Mixup and
Domain-Specific Image Restoration [17.507951655445652]
本稿では,新しい医用画像分割法を提案する。
具体的には、セグメント化モデルと自己超越ドメイン固有の画像復元モジュールを組み合わせることで、マルチタスクパラダイムとしてアプローチを設計する。
医用画像における2つの一般化可能なセグメンテーションベンチマークにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-08-08T03:56:20Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Cross-View Panorama Image Synthesis [68.35351563852335]
PanoGANは、新しい敵対的フィードバックGANフレームワークである。
PanoGANは、最先端のアプローチよりもより説得力のある、高品質なパノラマ画像生成を可能にする。
論文 参考訳(メタデータ) (2022-03-22T15:59:44Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。