Fugu-MT 論文翻訳(概要): MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

論文の概要: MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection

arxiv url: http://arxiv.org/abs/2404.08452v1
Date: Fri, 12 Apr 2024 13:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-15 14:57:03.534557
Title: MoE-FFD: Mixture of Experts for Generalized and Parameter-Efficient Face Forgery Detection
Title（参考訳）: MoE-FFD:一般化およびパラメータ効率の良い顔偽造検出の専門家の混在
Authors: Chenqi Kong, Anwei Luo, Song Xia, Yi Yu, Haoliang Li, Alex C. Kot,
Abstract要約: CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現する。この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入する。 MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンは凍結されている。
参考スコア（独自算出の注目度）: 49.276940875825126
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deepfakes have recently raised significant trust issues and security concerns among the public. Compared to CNN face forgery detectors, ViT-based methods take advantage of the expressivity of transformers, achieving superior detection performance. However, these approaches still exhibit the following limitations: (1). Fully fine-tuning ViT-based models from ImageNet weights demands substantial computational and storage resources; (2). ViT-based methods struggle to capture local forgery clues, leading to model bias and limited generalizability. To tackle these challenges, this work introduces Mixture-of-Experts modules for Face Forgery Detection (MoE-FFD), a generalized yet parameter-efficient ViT-based approach. MoE-FFD only updates lightweight Low-Rank Adaptation (LoRA) and Adapter layers while keeping the ViT backbone frozen, thereby achieving parameter-efficient training. Moreover, MoE-FFD leverages the expressivity of transformers and local priors of CNNs to simultaneously extract global and local forgery clues. Additionally, novel MoE modules are designed to scale the model's capacity and select optimal forgery experts, further enhancing forgery detection performance. The proposed MoE learning scheme can be seamlessly adapted to various transformer backbones in a plug-and-play manner. Extensive experimental results demonstrate that the proposed method achieves state-of-the-art face forgery detection performance with reduced parameter overhead. The code will be released upon acceptance.
Abstract（参考訳）: ディープフェイクは、最近、国民の間で重大な信頼問題とセキュリティ上の懸念を提起した。 CNNフェースフォージェリ検出器と比較して、VT法はトランスの表現性を生かし、優れた検出性能を実現している。しかし、これらのアプローチには次のような制限がある。 ImageNetの重みから完全に微調整されたViTベースのモデルには、相当な計算とストレージリソースが必要です。 ViTベースの手法は、局所的な偽の手がかりを捉えるのに苦労し、モデルバイアスと限定的な一般化性をもたらす。これらの課題に対処するため、この研究は、汎用的でパラメータ効率のよいViTベースのアプローチであるFace Forgery Detection (MoE-FFD)のためのMixture-of-Expertsモジュールを導入している。 MoE-FFDは軽量のローランド適応(LoRA)層とアダプタ層のみを更新し、ViTバックボーンを凍結させ、パラメータ効率のトレーニングを実現する。さらに、MoE-FFDはトランスフォーマーの表現性とCNNの局所的先行性を利用して、グローバルおよび局所的な偽の手がかりを同時に抽出する。さらに、新しいMoEモジュールはモデルのキャパシティを拡大し、最適な偽造の専門家を選択するように設計されており、偽造検出性能をさらに高めている。 The proposed MoE learning scheme can be seamlessly adapt to various transformer backbones in a plug-and-play manner。実験結果から,提案手法はパラメータのオーバーヘッドを低減し,最先端の顔偽造検出性能を実現することを示した。コードは受理時にリリースされます。

関連論文リスト

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文参考訳（メタデータ） (2024-08-23T01:53:36Z)
Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文参考訳（メタデータ） (2024-08-05T08:35:59Z)
Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。 DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文参考訳（メタデータ） (2024-03-18T14:05:52Z)
Generalized Face Forgery Detection via Adaptive Learning for Pre-trained Vision Transformer [54.32283739486781]
適応学習パラダイムの下で,textbfForgery-aware textbfAdaptive textbfVision textbfTransformer(FA-ViT)を提案する。 FA-ViTは、クロスデータセット評価において、Celeb-DFおよびDFDCデータセット上で93.83%と78.32%のAUCスコアを達成する。
論文参考訳（メタデータ） (2023-09-20T06:51:11Z)
S-Adapter: Generalizing Vision Transformer for Face Anti-Spoofing with Statistical Tokens [45.06704981913823]
Face Anti-Spoofing (FAS) は、スプーフされた顔を表示することによって、顔認識システムに侵入しようとする悪意のある試みを検出することを目的としている。本稿では,局所的なトークンヒストグラムから局所的な識別や統計情報を収集する新しい統計適応器(S-Adapter)を提案する。統計的トークンの一般化をさらに改善するために,新しいトークンスタイル正規化(TSR)を提案する。提案したS-AdapterとTSRは、ゼロショットと少数ショットのクロスドメインテストの両方において、いくつかのベンチマークテストにおいて、最先端の手法よりも優れた、大きなメリットをもたらすことを示した。
論文参考訳（メタデータ） (2023-09-07T22:36:22Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文参考訳（メタデータ） (2023-04-04T16:14:39Z)
Enhancing General Face Forgery Detection via Vision Transformer with Low-Rank Adaptation [31.780516471483985]
偽造の顔は偽ニュースや詐欺偽造などのセキュリティ上の懸念を訴える本稿では、視覚変換器(ViT)アーキテクチャに基づく、より一般的な偽顔検出モデルを設計する。提案手法は, クロスマニピュレーションとクロスデータセット評価の両方において, 最先端検出性能を実現する。
論文参考訳（メタデータ） (2023-03-02T02:26:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。