論文の概要: AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2512.17730v1
- Date: Fri, 19 Dec 2025 16:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.474719
- Title: AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection
- Title(参考訳): AdaptPrompt: 一般化可能なディープフェイク検出のためのVLMのパラメータ効率の良い適応
- Authors: Yichen Jiang, Mohammed Talha Alam, Sohail Ahmed Khan, Duc-Tien Dang-Nguyen, Fakhri Karray,
- Abstract要約: 画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。
重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。
本稿では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
- 参考スコア(独自算出の注目度): 7.76090543025328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image generation have led to the widespread availability of highly realistic synthetic media, increasing the difficulty of reliable deepfake detection. A key challenge is generalization, as detectors trained on a narrow class of generators often fail when confronted with unseen models. In this work, we address the pressing need for generalizable detection by leveraging large vision-language models, specifically CLIP, to identify synthetic content across diverse generative techniques. First, we introduce Diff-Gen, a large-scale benchmark dataset comprising 100k diffusion-generated fakes that capture broad spectral artifacts unlike traditional GAN datasets. Models trained on Diff-Gen demonstrate stronger cross-domain generalization, particularly on previously unseen image generators. Second, we propose AdaptPrompt, a parameter-efficient transfer learning framework that jointly learns task-specific textual prompts and visual adapters while keeping the CLIP backbone frozen. We further show via layer ablation that pruning the final transformer block of the vision encoder enhances the retention of high-frequency generative artifacts, significantly boosting detection accuracy. Our evaluation spans 25 challenging test sets, covering synthetic content generated by GANs, diffusion models, and commercial tools, establishing a new state-of-the-art in both standard and cross-domain scenarios. We further demonstrate the framework's versatility through few-shot generalization (using as few as 320 images) and source attribution, enabling the precise identification of generator architectures in closed-set settings.
- Abstract(参考訳): 画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。
重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。
本研究では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
まず、100kの拡散生成フェイクからなる大規模ベンチマークデータセットであるDiff-Genを紹介し、従来のGANデータセットとは異なり、幅広いスペクトルアーティファクトをキャプチャする。
Diff-Genで訓練されたモデルは、特にそれまで目に見えないイメージジェネレータにおいて、より強力なクロスドメイン一般化を示す。
第2に,CLIPのバックボーンを凍結したままタスク固有のテキストプロンプトとビジュアルアダプタを共同で学習するパラメータ効率の伝達学習フレームワークであるAdaptPromptを提案する。
さらに,視覚エンコーダの最終変圧器ブロックを切断することで,高周波生成物の保持が向上し,検出精度が著しく向上することを示す。
評価は, GAN, 拡散モデル, 商用ツールが生成する合成コンテンツをカバーし, 標準およびクロスドメインのシナリオにおいて, 新たな最先端技術を確立した25の挑戦的テストセットにまたがる。
さらに、数ショットの一般化(320イメージまで使用)とソース属性によるフレームワークの汎用性を実証し、クローズドセット設定におけるジェネレータアーキテクチャの正確な識別を可能にする。
関連論文リスト
- HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。