論文の概要: Forgery-aware Adaptive Vision Transformer for Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2309.11092v1
- Date: Wed, 20 Sep 2023 06:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-21 17:01:37.316280
- Title: Forgery-aware Adaptive Vision Transformer for Face Forgery Detection
- Title(参考訳): 顔偽造検出のための偽造認識適応視覚トランス
- Authors: Anwei Luo, Rizhao Cai, Chenqi Kong, Xiangui Kang, Jiwu Huang and Alex
C. Kot
- Abstract要約: FA-ViT(Forgery-aware Adaptive Vision Transformer)を提案する。
FA-ViTでは、バニラViTのパラメータは、事前訓練された知識を保持するために凍結される。
特殊設計された2つのコンポーネント、LFI(Local-Aware Forgery)とGFA(Global-Aware Forgery Adaptor)は、フォージェリー関連の知識に適応するために使用される。
- 参考スコア(独自算出の注目度): 57.56537940216884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement in face manipulation technologies, the importance of
face forgery detection in protecting authentication integrity becomes
increasingly evident. Previous Vision Transformer (ViT)-based detectors have
demonstrated subpar performance in cross-database evaluations, primarily
because fully fine-tuning with limited Deepfake data often leads to forgetting
pre-trained knowledge and over-fitting to data-specific ones. To circumvent
these issues, we propose a novel Forgery-aware Adaptive Vision Transformer
(FA-ViT). In FA-ViT, the vanilla ViT's parameters are frozen to preserve its
pre-trained knowledge, while two specially designed components, the Local-aware
Forgery Injector (LFI) and the Global-aware Forgery Adaptor (GFA), are employed
to adapt forgery-related knowledge. our proposed FA-ViT effectively combines
these two different types of knowledge to form the general forgery features for
detecting Deepfakes. Specifically, LFI captures local discriminative
information and incorporates these information into ViT via
Neighborhood-Preserving Cross Attention (NPCA). Simultaneously, GFA learns
adaptive knowledge in the self-attention layer, bridging the gap between the
two different domain. Furthermore, we design a novel Single Domain Pairwise
Learning (SDPL) to facilitate fine-grained information learning in FA-ViT. The
extensive experiments demonstrate that our FA-ViT achieves state-of-the-art
performance in cross-dataset evaluation and cross-manipulation scenarios, and
improves the robustness against unseen perturbations.
- Abstract(参考訳): 顔操作技術の進歩に伴い、認証の完全性を保護するための顔偽造検出の重要性が増している。
先進的なビジョントランスフォーマー(ViT)ベースの検出器は、主にDeepfakeデータに制限された完全な微調整が、事前訓練された知識を忘れ、データ固有のデータに過度に適合することにつながるため、クロスデータベース評価においてサブパー性能を示している。
これらの問題を回避すべく,新規なforgery-aware adaptive vision transformer (fa-vit)を提案する。
fa-vitでは、バニラvitのパラメータは予め訓練された知識を保存するために凍結され、特別に設計された2つのコンポーネント、ローカルアウェアフォージェリーインジェクタ(lfi)とグローバルアウェアフォージェリーインジェクタ(gfa)がフォージェリー関連の知識に適応するために使用される。
提案するFA-ViTは,これらの2種類の知識を効果的に組み合わせて,Deepfakesを検出する一般的な偽造特徴を形成する。
具体的には、LFIは局所的な識別情報をキャプチャし、これらの情報をNorborhood-Preserving Cross Attention (NPCA)を介してViTに組み込む。
同時に、GFAは自己認識層において適応的な知識を学び、2つの異なるドメイン間のギャップを埋める。
さらに,FA-ViTにおける詳細な情報学習を容易にするために,SDPL(Single Domain Pairwise Learning)を設計する。
大規模な実験により,我々のFA-ViTは,クロスデータセット評価およびクロス操作シナリオにおける最先端性能を達成し,目に見えない摂動に対する堅牢性を向上させることが示された。
関連論文リスト
- Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with
Statistical Tokens [47.32696950968665]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - TransFace: Calibrating Transformer Training for Face Recognition from a
Data-Centric Perspective [40.521854111639094]
視覚変換器(ViT)は、その本質的なデータ・ハングリーの性質により、様々な視覚タスクにおいて強力な表現能力を示す。
しかし、非常に大きなデータセットを持つ顔認識(FR)のシナリオに適用すると、予期せぬ結果が得られます。
本稿では,DPAPというパッチレベルのデータ拡張戦略とEHSMというハードサンプルマイニング戦略を併用した,TransFaceと呼ばれる優れたFRモデルを提案する。
論文 参考訳(メタデータ) (2023-08-20T02:02:16Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation [54.61786380919243]
Unsupervised domain adapt (UDA) は、ラベル付きソースドメインから学習した知識をラベル付きターゲットドメインに転送することを目的としている。
これまでの研究は主に、ドメイン不変表現を学ぶために畳み込みニューラルネットワーク(CNN)上に構築されていた。
近年、視覚タスクに視覚変換器(ViT)を適用する指数関数的増加に伴い、ドメイン間の知識を適応するViTの能力は文献上未解明のままである。
論文 参考訳(メタデータ) (2021-08-12T22:37:43Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。