論文の概要: Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer
- arxiv url: http://arxiv.org/abs/2309.11092v2
- Date: Thu, 22 Aug 2024 02:23:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 20:07:24.754318
- Title: Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer
- Title(参考訳): 事前学習型視覚変換器の適応学習による一般化顔偽造検出
- Authors: Anwei Luo, Rizhao Cai, Chenqi Kong, Yakun Ju, Xiangui Kang, Jiwu Huang, Alex C. Kot,
- Abstract要約: 適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
- 参考スコア(独自算出の注目度): 54.32283739486781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid progress of generative models, the current challenge in face forgery detection is how to effectively detect realistic manipulated faces from different unseen domains. Though previous studies show that pre-trained Vision Transformer (ViT) based models can achieve some promising results after fully fine-tuning on the Deepfake dataset, their generalization performances are still unsatisfactory. One possible reason is that fully fine-tuned ViT-based models may disrupt the pre-trained features [1, 2] and overfit to some data-specific patterns [3]. To alleviate this issue, we present a \textbf{F}orgery-aware \textbf{A}daptive \textbf{Vi}sion \textbf{T}ransformer (FA-ViT) under the adaptive learning paradigm, where the parameters in the pre-trained ViT are kept fixed while the designed adaptive modules are optimized to capture forgery features. Specifically, a global adaptive module is designed to model long-range interactions among input tokens, which takes advantage of self-attention mechanism to mine global forgery clues. To further explore essential local forgery clues, a local adaptive module is proposed to expose local inconsistencies by enhancing the local contextual association. In addition, we introduce a fine-grained adaptive learning module that emphasizes the common compact representation of genuine faces through relationship learning in fine-grained pairs, driving these proposed adaptive modules to be aware of fine-grained forgery-aware information. Extensive experiments demonstrate that our FA-ViT achieves state-of-the-arts results in the cross-dataset evaluation, and enhances the robustness against unseen perturbations. Particularly, FA-ViT achieves 93.83\% and 78.32\% AUC scores on Celeb-DF and DFDC datasets in the cross-dataset evaluation. The code and trained model have been released at: https://github.com/LoveSiameseCat/FAViT.
- Abstract(参考訳): 生成モデルの急速な進歩により、顔偽造検出の現在の課題は、異なる未知の領域から現実的に操作された顔を効果的に検出する方法である。
以前の研究では、Deepfakeデータセットを完全に微調整した後、ViT(Pre-trained Vision Transformer)ベースのモデルでいくつかの有望な結果が得られることが示されているが、その一般化性能は相変わらず不満足である。
ひとつ考えられる理由は、完全に微調整されたViTベースのモデルが事前訓練された特徴[1, 2]を破壊し、データ固有のパターン[3]に過度に適合する可能性があることです。
この問題を緩和するために、適応学習パラダイムの下で、設計した適応型モジュールが偽の特徴を捉えるように最適化されている間に、事前学習されたViT内のパラメータを固定する、 \textbf{F}orgery-aware \textbf{A}daptive \textbf{Vi}sion \textbf{T}ransformer (FA-ViT)を提案する。
具体的には、グローバル適応モジュールは、入力トークン間の長距離相互作用をモデル化するために設計され、グローバルな偽の手がかりをマイニングするために自己注意機構を利用する。
局所的不整合を明らかにするために, 局所的アダプティブモジュールを提案し, 局所的アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アダプティブ・アソシエーション(英語版)について検討した。
さらに,より粒度の高い対における関係学習を通じて,現実の顔の共通コンパクト表現を強調する適応学習モジュールを導入し,これらの適応学習モジュールを細粒度な偽情報に認識するよう促す。
我々のFA-ViTは, クロスデータセット評価の結果を達成し, 目に見えない摂動に対する堅牢性を高めることを実証した。
特にFA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセットで93.83\%と78.32\%のAUCスコアを達成している。
コードとトレーニングされたモデルは、https://github.com/LoveSiameseCat/FAViT.comでリリースされた。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection [54.545054873239295]
ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
論文 参考訳(メタデータ) (2024-04-12T13:02:08Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Fourier Test-time Adaptation with Multi-level Consistency for Robust
Classification [10.291631977766672]
本稿では,Fourier Test-Time Adaptation (FTTA) と呼ばれる新しい手法を提案する。
FTTAは、予測の自己監督を行うために、ペア入力の信頼性の高い多レベル整合性測定を構築する。
異なる形態と器官を持つ3つの大きな分類データセットで広範囲に検証された。
論文 参考訳(メタデータ) (2023-06-05T02:29:38Z) - Adaptive Memory Networks with Self-supervised Learning for Unsupervised
Anomaly Detection [54.76993389109327]
教師なし異常検出は、通常のデータのみをトレーニングすることで、目に見えない異常を検出するモデルを構築することを目的としている。
本稿では,これらの課題に対処するために,自己教師付き学習(AMSL)を用いた適応記憶ネットワーク(Adaptive Memory Network)を提案する。
AMSLには、一般的な正規パターンを学ぶための自己教師付き学習モジュールと、リッチな特徴表現を学ぶための適応型メモリ融合モジュールが組み込まれている。
論文 参考訳(メタデータ) (2022-01-03T03:40:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。