論文の概要: Visual Language Models as Zero-Shot Deepfake Detectors
- arxiv url: http://arxiv.org/abs/2507.22469v1
- Date: Wed, 30 Jul 2025 08:20:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.093142
- Title: Visual Language Models as Zero-Shot Deepfake Detectors
- Title(参考訳): ゼロショットディープフェイク検出器としてのビジュアル言語モデル
- Authors: Viacheslav Pirogov,
- Abstract要約: 本稿では,画像分類の新しい手法を提案し,深度検出のために評価する。
視覚言語モデルのゼロショット機能に触発され、画像分類のための新しいVLMアプローチを提案し、深度検出のために評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The contemporary phenomenon of deepfakes, utilizing GAN or diffusion models for face swapping, presents a substantial and evolving threat in digital media, identity verification, and a multitude of other systems. The majority of existing methods for detecting deepfakes rely on training specialized classifiers to distinguish between genuine and manipulated images, focusing only on the image domain without incorporating any auxiliary tasks that could enhance robustness. In this paper, inspired by the zero-shot capabilities of Vision Language Models, we propose a novel VLM-based approach to image classification and then evaluate it for deepfake detection. Specifically, we utilize a new high-quality deepfake dataset comprising 60,000 images, on which our zero-shot models demonstrate superior performance to almost all existing methods. Subsequently, we compare the performance of the best-performing architecture, InstructBLIP, on the popular deepfake dataset DFDC-P against traditional methods in two scenarios: zero-shot and in-domain fine-tuning. Our results demonstrate the superiority of VLMs over traditional classifiers.
- Abstract(参考訳): ディープフェイクの現代的現象は、顔交換にGANまたは拡散モデルを利用することで、デジタルメディア、アイデンティティ検証、その他多数のシステムにおいて、大きく進化する脅威を呈している。
ディープフェイクを検出する既存の方法のほとんどは、真のイメージと操作されたイメージを区別する訓練された特殊分類器に依存しており、堅牢性を高めるような補助的なタスクを組み込むことなく、画像領域のみに焦点を当てていた。
本稿では、視覚言語モデルのゼロショット機能に着想を得て、画像分類のための新しいVLMアプローチを提案し、深度検出のために評価する。
具体的には、6万の画像からなる新しい高品質なディープフェイクデータセットを使用し、ゼロショットモデルは既存のほぼすべての手法よりも優れた性能を示す。
次に,最も優れたアーキテクチャであるInstructBLIPの性能を,従来の手法であるゼロショットとインドメインファインチューニングの2つのシナリオで比較した。
従来の分類器よりもVLMの方が優れていることを示す。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors [24.78672820633581]
深層生成モデルは、偽情報や著作権侵害に対する懸念を高めながら、驚くほど偽のイメージを作成することができる。
実画像と偽画像とを区別するためにディープフェイク検出技術が開発された。
本稿では,視覚言語モデルとアクシデントチューニング技術を用いて,Antifake Promptと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-26T14:23:45Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。