論文の概要: Deepfake Detection that Generalizes Across Benchmarks
- arxiv url: http://arxiv.org/abs/2508.06248v1
- Date: Fri, 08 Aug 2025 12:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.219099
- Title: Deepfake Detection that Generalizes Across Benchmarks
- Title(参考訳): ベンチマーク全体にわたって一般化するディープフェイク検出
- Authors: Andrii Yermakov, Jan Cech, Jiri Matas, Mario Fritz,
- Abstract要約: この研究は、事前訓練されたCLIPビジョンエンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
2019年から2025年にかけて,13のベンチマークデータセットについて広範な評価を行った。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 63.29485283822232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generalization of deepfake detectors to unseen manipulation techniques remains a challenge for practical deployment. Although many approaches adapt foundation models by introducing significant architectural complexity, this work demonstrates that robust generalization is achievable through a parameter-efficient adaptation of a pre-trained CLIP vision encoder. The proposed method, LNCLIP-DF, fine-tunes only the Layer Normalization parameters (0.03% of the total) and enhances generalization by enforcing a hyperspherical feature manifold using L2 normalization and latent space augmentations. We conducted an extensive evaluation on 13 benchmark datasets spanning from 2019 to 2025. The proposed method achieves state-of-the-art performance, outperforming more complex, recent approaches in average cross-dataset AUROC. Our analysis yields two primary findings for the field: 1) training on paired real-fake data from the same source video is essential for mitigating shortcut learning and improving generalization, and 2) detection difficulty on academic datasets has not strictly increased over time, with models trained on older, diverse datasets showing strong generalization capabilities. This work delivers a computationally efficient and reproducible method, proving that state-of-the-art generalization is attainable by making targeted, minimal changes to a pre-trained CLIP model. The code will be made publicly available upon acceptance.
- Abstract(参考訳): ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
多くのアプローチは、重要なアーキテクチャの複雑さを導入して基礎モデルに適応するが、この研究は、訓練済みのCLIPビジョンエンコーダのパラメータ効率の適応によって、堅牢な一般化が達成可能であることを証明している。
提案手法であるLNCLIP-DFは、層正規化パラメータ(全体の0.03%)のみを微細構造とし、L2正規化と潜在空間拡張を用いて超球面特徴多様体を強制することにより一般化を促進する。
2019年から2025年にかけて,13のベンチマークデータセットについて広範な評価を行った。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
我々の分析は、この分野の2つの主要な発見をもたらす。
1)同じソースビデオからペア化されたリアルタイムデータに対するトレーニングは、ショートカット学習の緩和と一般化の向上に不可欠であり、
2) 学術データセットにおける検出困難度は時間とともに厳密には増加しておらず, より古い多種多様なデータセットで訓練されたモデルは強力な一般化能力を示している。
この研究は計算的に効率的で再現可能な方法を提供し、最先端の一般化は、訓練済みのCLIPモデルにターゲット最小限の変更を加えることで達成可能であることを証明した。
コードは受理時に公開されます。
関連論文リスト
- Query-Based Adaptive Aggregation for Multi-Dataset Joint Training Toward Universal Visual Place Recognition [10.8843105310375]
クエリベースのアダプティブアグリゲーション(QAA)は、学習したクエリを参照コードブックとして活用する、新たな機能アグリゲーション技術である。
QAAは最先端モデルよりも優れており、データセット固有のモデルに匹敵するピーク性能を維持しつつ、多様なデータセット間でのバランスの取れた一般化を実現している。
論文 参考訳(メタデータ) (2025-07-04T22:40:03Z) - Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。
本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。
AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文 参考訳(メタデータ) (2025-05-24T05:17:53Z) - Unlocking the Hidden Potential of CLIP in Generalizable Deepfake Detection [23.48106270102081]
本稿では,顔の深部を部分的に操作して検出する課題に対処する。
我々は、Contrastive Language-Image Pre-Training(CLIP)モデル、特にViT-L/14ビジュアルエンコーダを利用する。
提案手法は,LNチューニングなどのPEFT技術を用いて,モデルのパラメータの小さな部分集合を調整する。
論文 参考訳(メタデータ) (2025-03-25T14:10:54Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
入力摂動によってモデル予測を操作するモデル再プログラミングパラダイムにより,本手法はトレーニング済みのVLMモデルを再プログラムすることができる。
いくつかの人気のあるベンチマークデータセットの実験では、ディープフェイク検出のクロスデータセットとクロスマニピュレーションのパフォーマンスが大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Understanding Generalization of Federated Learning via Stability:
Heterogeneity Matters [1.4502611532302039]
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
一般化性能は、現実世界のアプリケーションに適用された機械学習モデルを評価する上で重要な指標である。
論文 参考訳(メタデータ) (2023-06-06T16:12:35Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。