論文の概要: Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.01450v1
- Date: Mon, 02 Mar 2026 04:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.685469
- Title: Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection
- Title(参考訳): Deepfake Forensics Adapter: 一般化可能なDeepfake検出のためのデュアルストリームネットワーク
- Authors: Jianfeng Liao, Yichen Wei, Raymond Chan Ching Bon, Shulan Wang, Kam-Pui Chow, Kwok-Yan Lam,
- Abstract要約: Deepfake Forensics Adapter (DFA)は、視覚言語の基礎モデルをターゲットの法医学分析と相乗化する新しいデュアルストリームフレームワークである。
提案手法では,事前学習したCLIPモデルと3つのコアコンポーネントを統合して,ディープフェイク検出を実現する。
我々のフレームワークは、最先端の性能を実証するだけでなく、堅牢なディープフェイク検出システムを開発するための実用的で効果的な方向を指摘する。
- 参考スコア(独自算出の注目度): 22.889849855283355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of deepfake generation techniques poses significant threats to public safety and causes societal harm through the creation of highly realistic synthetic facial media. While existing detection methods demonstrate limitations in generalizing to emerging forgery patterns, this paper presents Deepfake Forensics Adapter (DFA), a novel dual-stream framework that synergizes vision-language foundation models with targeted forensics analysis. Our approach integrates a pre-trained CLIP model with three core components to achieve specialized deepfake detection by leveraging the powerful general capabilities of CLIP without changing CLIP parameters: 1) A Global Feature Adapter is used to identify global inconsistencies in image content that may indicate forgery, 2) A Local Anomaly Stream enhances the model's ability to perceive local facial forgery cues by explicitly leveraging facial structure priors, and 3) An Interactive Fusion Classifier promotes deep interaction and fusion between global and local features using a transformer encoder. Extensive evaluations of frame-level and video-level benchmarks demonstrate the superior generalization capabilities of DFA, particularly achieving state-of-the-art performance in the challenging DFDC dataset with frame-level AUC/EER of 0.816/0.256 and video-level AUC/EER of 0.836/0.251, representing a 4.8% video AUC improvement over previous methods. Our framework not only demonstrates state-of-the-art performance, but also points out a feasible and effective direction for developing a robust deepfake detection system with enhanced generalization capabilities against the evolving deepfake threats. Our code is available at https://github.com/Liao330/DFA.git
- Abstract(参考訳): ディープフェイク生成技術の急速な進歩は、公共の安全に重大な脅威をもたらし、高度に現実的な合成顔メディアの作成を通じて社会的な害をもたらす。
既存の検出手法では,新たなフォージェリパターンへの一般化の限界が示されているが,本論文では,対象のフォージェリクス分析による視覚基盤モデルの相乗化を目的とした,新しい2重ストリームフレームワークであるDeepfake Forensics Adapter(DFA)を提案する。
当社のアプローチでは,CLIPパラメータを変更することなく,CLIPの強力な汎用機能を活用することで,3つのコアコンポーネントを事前学習したCLIPモデルを統合して,特別なディープフェイク検出を実現する。
1)グローバル特徴適応器は、偽造を示す可能性のある画像コンテンツのグローバルな不整合を識別するために使用される。
2)局所異常ストリームは、顔の構造を明示的に活用することにより、局所的な顔の偽造行為を知覚するモデルの能力を高め、
3) 対話型融合分類器は, トランスフォーマーエンコーダを用いて, 大域的特徴と局所的特徴との深い相互作用と融合を促進する。
フレームレベルのAUC/EERは0.816/0.256で、ビデオレベルのAUC/EERは0.836/0.251で、従来の手法よりも4.8%改善されている。
我々のフレームワークは、最先端の性能を示すだけでなく、進化するディープフェイク脅威に対する一般化機能を強化した堅牢なディープフェイク検出システムを開発するための、実用的で効果的な方向を指摘する。
私たちのコードはhttps://github.com/Liao330/DFA.gitで利用可能です。
関連論文リスト
- Patch-Discontinuity Mining for Generalized Deepfake Detection [18.30761992906741]
ディープフェイク検出法は、しばしば手作りの法医学的手がかりと複雑なアーキテクチャに依存している。
我々は,強力な視覚モデルをコンパクトで巧妙なネットワーク設計でディープフェイク検出タスクに転送するフレームワークであるGenDFを提案する。
実験により、GenDFはクロスドメインおよびクロスマニピュレーション設定における最先端の一般化性能を達成することが示された。
論文 参考訳(メタデータ) (2025-12-26T13:18:14Z) - AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection [7.76090543025328]
画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。
重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。
本稿では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
論文 参考訳(メタデータ) (2025-12-19T16:06:03Z) - DeepShield: Fortifying Deepfake Video Detection with Local and Global Forgery Analysis [59.8324489002129]
ローカルな感度とグローバルな一般化のバランスを保ち、目に見えない偽造品間の堅牢性を改善するディープフェイク検出フレームワークであるDeepShieldを紹介する。
DeepShieldは、時間的アーティファクトモデリングとパッチ単位での監視を適用して、グローバルモデルでしばしば見過ごされる微細な不整合をキャプチャする。
論文 参考訳(メタデータ) (2025-10-29T07:35:29Z) - Deepfake Detection that Generalizes Across Benchmarks [48.85953407706351]
ディープフェイク検出器の非表示操作技術への一般化は、実用的展開の課題である。
この研究は、基礎となる事前学習された視覚エンコーダのパラメータ効率適応により、ロバストな一般化が達成可能であることを示す。
提案手法は、平均的クロスデータセットAUROCにおける、より複雑な、最新のアプローチよりも優れた、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-08T12:03:56Z) - DDL: A Large-Scale Datasets for Deepfake Detection and Localization in Diversified Real-World Scenarios [51.916287988122406]
本稿では,$textbf1.4M+$forgedサンプルを含む大規模ディープフェイク検出およびローカライゼーション(textbfDDL)データセットを提案する。
我々のDDLは、複雑な現実世界の偽造のより困難なベンチマークを提供するだけでなく、次世代のディープフェイク検出、ローカライゼーション、解釈可能性メソッドを構築するための重要なサポートも提供しています。
論文 参考訳(メタデータ) (2025-06-29T15:29:03Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Locate and Verify: A Two-Stream Network for Improved Deepfake Detection [33.50963446256726]
現在のディープフェイク検出法は一般に一般化が不十分である。
本稿では,モデルがエビデンスを抽出する潜在的領域を効果的に拡大する,革新的な2ストリームネットワークを提案する。
また、パッチレベルの偽位置アノテーションを推定するための半教師付きパッチ類似性学習戦略を提案する。
論文 参考訳(メタデータ) (2023-09-20T08:25:19Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。