論文の概要: Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model
- arxiv url: http://arxiv.org/abs/2404.05583v3
- Date: Sun, 16 Mar 2025 17:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:15.530470
- Title: Towards More General Video-based Deepfake Detection through Facial Component Guided Adaptation for Foundation Model
- Title(参考訳): ファウンデーションモデルのための顔成分誘導適応によるより一般的なビデオベースディープフェイク検出に向けて
- Authors: Yue-Hua Han, Tai-Ming Huang, Kai-Lung Hua, Jun-Cheng Chen,
- Abstract要約: 一般化ビデオに基づくDeepfake検出のためのサイドネットワークベースのデコーダを提案する。
また、空間学習の一般化性を高めるために、FCG(Facial Component Guidance)を導入する。
提案手法は,Deepfakeデータセットに挑戦する上で有望な一般化性を示す。
- 参考スコア(独自算出の注目度): 16.69101880602321
- License:
- Abstract: Generative models have enabled the creation of highly realistic facial-synthetic images, raising significant concerns due to their potential for misuse. Despite rapid advancements in the field of deepfake detection, developing efficient approaches to leverage foundation models for improved generalizability to unseen forgery samples remains challenging. To address this challenge, we propose a novel side-network-based decoder that extracts spatial and temporal cues using the CLIP image encoder for generalized video-based Deepfake detection. Additionally, we introduce Facial Component Guidance (FCG) to enhance spatial learning generalizability by encouraging the model to focus on key facial regions. By leveraging the generic features of a vision-language foundation model, our approach demonstrates promising generalizability on challenging Deepfake datasets while also exhibiting superiority in training data efficiency, parameter efficiency, and model robustness.
- Abstract(参考訳): 生成モデルにより、非常にリアルな顔合成画像の作成が可能となり、誤用の可能性のために重大な懸念が持ち上がった。
ディープフェイク検出の分野で急速に進歩したにもかかわらず、未知の偽造サンプルに対する一般化性を向上させる基礎モデルを活用するための効率的なアプローチが開発されている。
この課題に対処するために,CLIP画像エンコーダを用いて空間的および時間的手がかりを抽出し,デコーダを提案する。
さらに,顔領域に焦点をあてることによって,空間学習の一般化性を高めるために,FCG(Facial Component Guidance)を導入する。
本手法は,視覚言語基盤モデルの汎用的特徴を活用することにより,Deepfakeデータセットに挑戦する上で有望な一般化性を示すとともに,データ効率,パラメータ効率,モデルロバスト性にも優れることを示す。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - Wavelet-Driven Generalizable Framework for Deepfake Face Forgery Detection [0.0]
Wavelet-CLIPは、ウェーブレット変換とViT-L/14アーキテクチャに由来する機能を統合したディープフェイク検出フレームワークで、CLIP方式で事前トレーニングされている。
提案手法は,データ間一般化における平均AUC0.749,不明瞭なディープフェイクに対するロバスト性0.893を達成し,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-26T21:16:51Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
入力摂動によってモデル予測を操作するモデル再プログラミングパラダイムにより,本手法はトレーニング済みのVLMモデルを再プログラムすることができる。
いくつかの人気のあるベンチマークデータセットの実験では、ディープフェイク検出のクロスデータセットとクロスマニピュレーションのパフォーマンスが大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - On Improving Cross-dataset Generalization of Deepfake Detectors [1.0152838128195467]
ディープフェイクによる顔の操作は、大きなセキュリティリスクを引き起こし、深刻な社会的懸念を引き起こしている。
我々は、教師付きおよび強化学習(RL)のハイブリッド組み合わせとして深層偽検出を定式化し、そのクロスデータセット一般化性能を改善する。
提案手法は,ディープフェイク検出器のクロスデータセット一般化における既存の研究よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-08T20:34:53Z) - DeepFake Detection by Analyzing Convolutional Traces [0.0]
我々は,人間の顔のディープフェイクの分析に着目し,新しい検出方法を提案する。
提案手法は, 予測最大化(EM)アルゴリズムを用いて, 基礎となる畳み込み生成過程をモデル化するための局所的特徴の集合を抽出する。
その結果、異なるアーキテクチャと対応する生成過程を区別する手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-22T09:02:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。