論文の概要: AuthGuard: Generalizable Deepfake Detection via Language Guidance
- arxiv url: http://arxiv.org/abs/2506.04501v1
- Date: Wed, 04 Jun 2025 22:50:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.45228
- Title: AuthGuard: Generalizable Deepfake Detection via Language Guidance
- Title(参考訳): AuthGuard: 言語ガイダンスによる一般的なディープフェイク検出
- Authors: Guangyu Shen, Zhihua Li, Xiang Xu, Tianchen Zhao, Zheng Zhang, Dongsheng An, Zhuowen Tu, Yifan Xing, Qin Zhang,
- Abstract要約: 既存のディープフェイク検出技術は、進化し続ける新しい、目に見えない偽造手法に追いつくのに苦労している。
言語指導を取り入れることで、ディープフェイク検出の一般化を改善することができる。
我々は、識別的分類と画像テキストのコントラスト学習を組み合わせることで、専門的なディープフェイク視覚エンコーダを訓練する。
- 参考スコア(独自算出の注目度): 39.18916434250689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing deepfake detection techniques struggle to keep-up with the ever-evolving novel, unseen forgeries methods. This limitation stems from their reliance on statistical artifacts learned during training, which are often tied to specific generation processes that may not be representative of samples from new, unseen deepfake generation methods encountered at test time. We propose that incorporating language guidance can improve deepfake detection generalization by integrating human-like commonsense reasoning -- such as recognizing logical inconsistencies and perceptual anomalies -- alongside statistical cues. To achieve this, we train an expert deepfake vision encoder by combining discriminative classification with image-text contrastive learning, where the text is generated by generalist MLLMs using few-shot prompting. This allows the encoder to extract both language-describable, commonsense deepfake artifacts and statistical forgery artifacts from pixel-level distributions. To further enhance robustness, we integrate data uncertainty learning into vision-language contrastive learning, mitigating noise in image-text supervision. Our expert vision encoder seamlessly interfaces with an LLM, further enabling more generalized and interpretable deepfake detection while also boosting accuracy. The resulting framework, AuthGuard, achieves state-of-the-art deepfake detection accuracy in both in-distribution and out-of-distribution settings, achieving AUC gains of 6.15% on the DFDC dataset and 16.68% on the DF40 dataset. Additionally, AuthGuard significantly enhances deepfake reasoning, improving performance by 24.69% on the DDVQA dataset.
- Abstract(参考訳): 既存のディープフェイク検出技術は、進化し続ける新しい、目に見えない偽造手法に追いつくのに苦労している。
この制限は、訓練中に学んだ統計的成果物に依存しており、多くの場合、テスト時に遭遇した新しい、目に見えないディープフェイク生成方法のサンプルを代表しない特定の生成プロセスに結びついている。
言語指導を取り入れることで、統計的手がかりとともに、論理的不整合や知覚異常を認識するなど、人間のような常識推論を組み込むことで、ディープフェイク検出の一般化を改善することができる。
これを実現するために、識別的分類と画像テキストのコントラスト学習を組み合わせることで、専門家のディープフェイク・ビジョン・エンコーダを訓練する。
これにより、エンコーダは、言語記述可能な、コモンセンスなディープフェイクアーティファクトと、ピクセルレベルの分布から統計的偽造アーティファクトの両方を抽出することができる。
強靭性をさらに向上するため,画像テキスト管理におけるノイズ軽減のため,データ不確実性学習を視覚言語によるコントラスト学習に統合する。
我々の専門的なビジョンエンコーダはLLMとシームレスに対話し、より一般化され解釈可能なディープフェイク検出を可能にし、精度も向上した。
その結果得られたフレームワークであるAuthGuardは、分布内および分布外の両方で最先端のディープフェイク検出精度を達成し、DFDCデータセットではAUCが6.15%、DF40データセットでは16.68%向上した。
さらに、AuthGuardはディープフェイク推論を大幅に強化し、DDVQAデータセットの24.69%のパフォーマンスを改善した。
関連論文リスト
- Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - Linguistic Profiling of Deepfakes: An Open Database for Next-Generation
Deepfake Detection [40.20982463380279]
本稿では,Deepfake データベース (DFLIP-3K) を提案する。
約3K生成モデルから約300Kの多様なディープフェイクサンプルが含まれており、この文献で最も多くのディープフェイクモデルがある。
この2つの特徴により、DFLIP-3Kはディープフェイクの言語プロファイリングの進歩を促進するベンチマークを開発することができる。
論文 参考訳(メタデータ) (2024-01-04T16:19:52Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Improving Fairness in Deepfake Detection [38.999205139257164]
ディープフェイク検出器の訓練に使用されるデータのバイアスは、異なる人種や性別で検出精度が異なることにつながる。
本稿では、人口統計情報の入手可能な設定と、この情報が欠落している場合の両方を扱う新しい損失関数を提案する。
論文 参考訳(メタデータ) (2023-06-29T02:19:49Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。