論文の概要: Distilled Transformers with Locally Enhanced Global Representations for Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2412.20156v1
- Date: Sat, 28 Dec 2024 14:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:06:32.408389
- Title: Distilled Transformers with Locally Enhanced Global Representations for Face Forgery Detection
- Title(参考訳): 局所的拡張グローバル表現による顔偽造検出用蒸留変圧器
- Authors: Yaning Zhang, Qiufu Li, Zitong Yu, Linlin Shen,
- Abstract要約: 顔画像の正当性を検出するために,顔偽造検出(FFD)を行う。
本研究では, ローカルおよびグローバルな偽物の両方を抽出する蒸留トランス (DTN) ネットワークを提案する。
- 参考スコア(独自算出の注目度): 48.263655122968906
- License:
- Abstract: Face forgery detection (FFD) is devoted to detecting the authenticity of face images. Although current CNN-based works achieve outstanding performance in FFD, they are susceptible to capturing local forgery patterns generated by various manipulation methods. Though transformer-based detectors exhibit improvements in modeling global dependencies, they are not good at exploring local forgery artifacts. Hybrid transformer-based networks are designed to capture local and global manipulated traces, but they tend to suffer from the attention collapse issue as the transformer block goes deeper. Besides, soft labels are rarely available. In this paper, we propose a distilled transformer network (DTN) to capture both rich local and global forgery traces and learn general and common representations for different forgery faces. Specifically, we design a mixture of expert (MoE) module to mine various robust forgery embeddings. Moreover, a locally-enhanced vision transformer (LEVT) module is proposed to learn locally-enhanced global representations. We design a lightweight multi-attention scaling (MAS) module to avoid attention collapse, which can be plugged and played in any transformer-based models with only a slight increase in computational costs. In addition, we propose a deepfake self-distillation (DSD) scheme to provide the model with abundant soft label information. Extensive experiments show that the proposed method surpasses the state of the arts on five deepfake datasets.
- Abstract(参考訳): 顔画像の正当性を検出するために,顔偽造検出(FFD)を行う。
現在のCNNベースの研究はFFDにおいて優れた性能を発揮するが、様々な操作手法によって生成される局所的な偽造パターンを捉えることには感受性がある。
トランスフォーマーベースの検出器は、グローバルな依存関係のモデリングの改善を示すが、局所的な偽造品の探索には適していない。
ハイブリッドトランスフォーマーベースのネットワークは、ローカルおよびグローバルな操作されたトレースをキャプチャするために設計されているが、トランスフォーマーブロックが深まるにつれて、注意崩壊の問題に悩まされる傾向がある。
また、ソフトレーベルはめったに利用できない。
本稿では, 局所およびグローバルな偽顔の両方を抽出し, 異なる偽顔に対する汎用的および共通表現を学習するための蒸留トランスフォーマネットワーク(DTN)を提案する。
具体的には,様々な堅牢なフォージェリー埋め込みをマイニングする専門家(MoE)の混合モジュールを設計する。
さらに,局所拡張型視覚変換器 (LEVT) モジュールを提案し,局所拡張型グローバル表現を学習した。
我々は,計算コストをわずかに増加させるだけで,トランスフォーマーベースモデルでもプラグインや再生が可能な,軽量なマルチアテンションスケーリング(MAS)モジュールを設計する。
さらに,ソフトラベル情報に富んだモデルを提供するため,ディープフェイク自己蒸留(DSD)方式を提案する。
大規模な実験により,提案手法は5つのディープフェイクデータセットの最先端を超越していることがわかった。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。