論文の概要: Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection
- arxiv url: http://arxiv.org/abs/2605.24965v1
- Date: Sun, 24 May 2026 09:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.550842
- Title: Cross-Domain Generalization Limits of Vision Foundation Models in Facial Deepfake Detection
- Title(参考訳): 顔深度検出における視覚基礎モデルのクロスドメイン一般化限界
- Authors: Ibrahim Delibasoglu,
- Abstract要約: 生成モデルは、超現実的な顔のディープフェイクの作成を可能にした。
伝統的なネットワークは表現の崩壊に悩まされ、局所化されたアーティファクトの指紋に過度に適合する。
本研究では、現代のビジョンファウンデーション・モデルが一般化可能な、アウト・オブ・ザ・ボックスな特徴抽出器として機能するかどうかを考察する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of generative models has enabled the creation of hyper-realistic facial deepfakes, exposing a critical vulnerability in modern digital forensics: the inability of detectors to generalize to unseen manipulation techniques. Traditional networks suffer from representation collapse, overfitting to localized artifact fingerprints of specific training generators. This work investigates whether modern Vision Foundation Models can serve as generalizable, out-of-the-box feature extractors capable of tracking forensic anomalies across entirely unseen generative manifolds. We conduct a systematic cross-domain evaluation comparing three foundational learning paradigms: fully supervised macro-semantic features (RoPE-ViT), pure self-supervised geometric features (DINOv3), and multi-teacher agglomerative representations (NVIDIA C-RADIOv4-H). By deploying frozen backbones subjected to downstream linear probing, we map the performance limitations of these architectures on the challenging DF40 benchmark. Our empirical findings expose the intrinsic trade-offs between pre-training paradigms and parameter scale, proving that while foundation models retain high discriminative capabilities for entire face synthesis, localized face editing techniques expose fundamental boundaries in linear probe evaluation structures. Source code and model weights are available in http://github.com/mribrahim/deepfake
- Abstract(参考訳): 生成モデルの急速な進化により、超現実的な顔のディープフェイクの作成が可能となり、現代のデジタル法医学において重要な脆弱性が露呈した。
伝統的なネットワークは表現の崩壊に悩まされ、特定のトレーニングジェネレータの局所的なアーティファクト指紋に過度に適合する。
本研究では、現代のビジョンファンデーションモデルが、全く見えない生成多様体にわたる法医学的異常を追跡できる一般化可能な、アウトオブボックスな特徴抽出器として機能するかどうかを考察する。
完全教師付きマクロセマンティック特徴(RoPE-ViT)、純粋自己教師付き幾何学的特徴(DINOv3)、マルチ教師による集合表現(NVIDIA C-RADIOv4-H)の3つの基礎的学習パラダイムを比較検討した。
下流の線形探索対象の凍結したバックボーンをデプロイすることにより、これらのアーキテクチャの性能制限を挑戦的なDF40ベンチマークにマップする。
実験により, 基礎モデルでは顔全体の識別能力が高いが, 局所的な顔編集技術は線形プローブ評価構造の基本的境界を明らかにすることが確認された。
ソースコードとモデルウェイトはhttp://github.com/mribrahim/deepfakeで入手できる。
関連論文リスト
- Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection [22.889849855283355]
Deepfake Forensics Adapter (DFA)は、視覚言語の基礎モデルをターゲットの法医学分析と相乗化する新しいデュアルストリームフレームワークである。
提案手法では,事前学習したCLIPモデルと3つのコアコンポーネントを統合して,ディープフェイク検出を実現する。
我々のフレームワークは、最先端の性能を実証するだけでなく、堅牢なディープフェイク検出システムを開発するための実用的で効果的な方向を指摘する。
論文 参考訳(メタデータ) (2026-03-02T04:58:00Z) - Simplicity Prevails: The Emergence of Generalizable AIGI Detection in Visual Foundation Models [15.709482146201283]
現代のビジョン・ファンデーション・モデル(Vision Foundation Models)の凍結した特徴に基づいて訓練された単純な線形分類器は、新しい最先端技術を確立している。
この基準線は標準ベンチマーク上の特別な検出器と一致し、また、ウィジェット内のデータセット上では決定的に優れていることを示す。
我々は、AIの法医学におけるパラダイムシフトを提唱し、静的ベンチマークの過度な適合から、ファンデーションモデルの進化する世界の知識を現実の信頼性に活用することへと移行した。
論文 参考訳(メタデータ) (2026-02-02T07:20:02Z) - Beyond Binary Classification: A Semi-supervised Approach to Generalized AI-generated Image Detection [1.189955933770711]
現在の法医学における重大な脆弱性は、検出器がクロスジェネレータの一般化を達成できないことである。
本稿では,「フェイク」クラス内の潜在アーキテクチャパターンを発見することによって,バイナリ分類を強化する半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:02:27Z) - FAME: A Lightweight Spatio-Temporal Network for Model Attribution of Face-Swap Deepfakes [9.462613446025001]
フェイスフェイクのDeepfakeビデオは、デジタルセキュリティ、プライバシー、メディアの整合性へのリスクが高まる。
FAMEは、異なる顔生成モデルに特有の微妙なアーティファクトをキャプチャするために設計されたフレームワークである。
結果は、FAMEが既存のメソッドを精度と実行時の両方で一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-13T05:47:09Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Rethinking the Up-Sampling Operations in CNN-based Generative Network
for Generalizable Deepfake Detection [86.97062579515833]
我々は、アップサンプリング操作から生じる一般化された構造的アーティファクトをキャプチャし、特徴付ける手段として、NPR(Neighboring Pixel Relationships)の概念を紹介した。
tft28の異なる生成モデルによって生成されたサンプルを含む、オープンワールドデータセット上で包括的な分析を行う。
この分析は、新しい最先端のパフォーマンスを確立し、既存の手法よりも優れたtft11.6%の向上を示している。
論文 参考訳(メタデータ) (2023-12-16T14:27:06Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - DeepFake Detection by Analyzing Convolutional Traces [0.0]
我々は,人間の顔のディープフェイクの分析に着目し,新しい検出方法を提案する。
提案手法は, 予測最大化(EM)アルゴリズムを用いて, 基礎となる畳み込み生成過程をモデル化するための局所的特徴の集合を抽出する。
その結果、異なるアーキテクチャと対応する生成過程を区別する手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-22T09:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。