論文の概要: MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2404.08452v2
- Date: Sat, 8 Jun 2024 01:48:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:24:28.971114
- Title: MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection
- Title(参考訳): MoE-FFD:一般化およびパラメータ効率の良い顔偽造検出の専門家の混在
- Authors: Chenqi Kong, Anwei Luo, Peijun Bao, Yi Yu, Haoliang Li, Zengwei Zheng, Shiqi Wang, Alex C. Kot,
- Abstract要約: ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
ViT法はトランスの表現性を生かし,優れた検出性能を実現する。
この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。
- 参考スコア(独自算出の注目度): 54.545054873239295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes have recently raised significant trust issues and security concerns among the public. Compared to CNN face forgery detectors, ViT-based methods take advantage of the expressivity of transformers, achieving superior detection performance. However, these approaches still exhibit the following limitations: (1) Fully fine-tuning ViT-based models from ImageNet weights demands substantial computational and storage resources; (2) ViT-based methods struggle to capture local forgery clues, leading to model bias; (3) These methods limit their scope on only one or few face forgery features, resulting in limited generalizability. To tackle these challenges, this work introduces Mixture-of-Experts modules for Face Forgery Detection (MoE-FFD), a generalized yet parameter-efficient ViT-based approach. MoE-FFD only updates lightweight Low-Rank Adaptation (LoRA) and Adapter layers while keeping the ViT backbone frozen, thereby achieving parameter-efficient training. Moreover, MoE-FFD leverages the expressivity of transformers and local priors of CNNs to simultaneously extract global and local forgery clues. Additionally, novel MoE modules are designed to scale the model's capacity and smartly select optimal forgery experts, further enhancing forgery detection performance. Our proposed learning scheme can be seamlessly adapted to various transformer backbones in a plug-and-play manner. Extensive experimental results demonstrate that the proposed method achieves state-of-the-art face forgery detection performance with significantly reduced parameter overhead. The code is released at: https://github.com/LoveSiameseCat/MoE-FFD.
- Abstract(参考訳): ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。
CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現している。
しかし、これらの手法は、(1)ImageNet重みによる完全な微調整ViTモデル、(2)ViTベースの手法は、局所的な偽造の手がかりを捉えるのに苦労し、モデルバイアスを引き起こす、(3)これらの手法は、顔の偽造の特徴のみに制限され、その結果、限定的な一般化性をもたらす。
これらの課題に対処するため、この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入している。
MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンを凍結させ、パラメータ効率のトレーニングを実現する。
さらに、MoE-FFDはトランスフォーマーの表現性とCNNの局所的先行性を利用して、グローバルおよび局所的な偽の手がかりを同時に抽出する。
さらに、新しいMoEモジュールはモデルのキャパシティを拡大し、最適な偽造の専門家をスマートに選択するように設計されており、偽造検出性能をさらに高めている。
提案手法は,様々な変圧器のバックボーンにプラグイン・アンド・プレイでシームレスに適応できる。
実験結果から,提案手法はパラメータのオーバーヘッドを大幅に低減した,最先端の顔偽造検出性能を実現することを示した。
コードはhttps://github.com/LoveSiameseCat/MoE-FFD.comで公開されている。
関連論文リスト
- Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。
FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文 参考訳(メタデータ) (2023-09-20T06:51:11Z) - S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。
本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。
統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。
提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文 参考訳(メタデータ) (2023-09-07T22:36:22Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Enhancing General Face Forgery Detection via Vision Transformer with
Low-Rank Adaptation [31.780516471483985]
偽造の顔は 偽ニュースや 詐欺 偽造などの セキュリティ上の懸念を訴える
本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。
提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。