論文の概要: GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection
- arxiv url: http://arxiv.org/abs/2603.29295v1
- Date: Tue, 31 Mar 2026 05:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.182348
- Title: GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection
- Title(参考訳): GazeCLIP: ディープフェイク属性と検出のための適応強化細粒度言語プロンプトを用いたGaz-Guided CLIP
- Authors: Yaning Zhang, Linlin Shen, Zitong Yu, Chunjie Ma, Zan Gao,
- Abstract要約: 現在のディープフェイク属性やディープフェイク検出作業は、新しい生成方法への一般化が不十分である傾向にある。
適応型きめ細粒度言語プロンプトを用いた新しい視線誘導型CLIPを提案する。
拡散モデルや流れモデルのような新しい発電機上でのネットワークのDFAD性能を評価するために, 新規できめ細かなベンチマークを行う。
CLIPをベースとした視線認識モデルを導入し,顔偽造攻撃の一般化を図った。
- 参考スコア(独自算出の注目度): 80.12497948980378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current deepfake attribution or deepfake detection works tend to exhibit poor generalization to novel generative methods due to the limited exploration in visual modalities alone. They tend to assess the attribution or detection performance of models on unseen advanced generators, coarsely, and fail to consider the synergy of the two tasks. To this end, we propose a novel gaze-guided CLIP with adaptive-enhanced fine-grained language prompts for fine-grained deepfake attribution and detection (DFAD). Specifically, we conduct a novel and fine-grained benchmark to evaluate the DFAD performance of networks on novel generators like diffusion and flow models. Additionally, we introduce a gaze-aware model based on CLIP, which is devised to enhance the generalization to unseen face forgery attacks. Built upon the novel observation that there are significant distribution differences between pristine and forged gaze vectors, and the preservation of the target gaze in facial images generated by GAN and diffusion varies significantly, we design a visual perception encoder to employ the inherent gaze differences to mine global forgery embeddings across appearance and gaze domains. We propose a gaze-aware image encoder (GIE) that fuses forgery gaze prompts extracted via a gaze encoder with common forged image embeddings to capture general attribution patterns, allowing features to be transformed into a more stable and common DFAD feature space. We build a language refinement encoder (LRE) to generate dynamically enhanced language embeddings via an adaptive-enhanced word selector for precise vision-language matching. Extensive experiments on our benchmark show that our model outperforms the state-of-the-art by 6.56% ACC and 5.32% AUC in average performance under the attribution and detection settings, respectively. Codes will be available on GitHub.
- Abstract(参考訳): 現在のディープフェイク属性やディープフェイク検出作業は、視覚的モーダルのみの探索が限られているため、新しい生成方法への一般化が不十分である傾向にある。
彼らは目に見えない先進的な発電機のモデルの属性や検出性能を評価し、粗く2つのタスクの相乗効果を考慮できない傾向にある。
そこで本研究では, 適応型微粒化言語プロンプトを付加した新しい視線誘導型CLIPを提案する。
具体的には,拡散モデルや流れモデルのような新しい発電機上でのネットワークのDFAD性能を評価するために,新しい,きめ細かいベンチマークを行う。
また,CLIPに基づく視線認識モデルを導入し,顔偽造攻撃の一般化を図った。
GANによる顔画像の視線保存と拡散は, プリスタンとフォージの視線ベクトル間に有意な分布差があることを新たな知見として, 視線差を生かした視覚認識エンコーダを設計し, 視線と視線領域をまたいだグローバルな視線埋め込みに利用した。
本稿では, 一般的な帰属パターンを捉えるために, フォージェリ・ガウトプロンプトを, 共通のフォージェリ・エンコーダで抽出したガウト・ガウト・プロンプトを融合させて, より安定的で共通のDFAD特徴空間に変換できるガウト・アウェア・イメージ・エンコーダ(GIE)を提案する。
我々は,適応型単語セレクタを用いて動的に拡張された言語埋め込みを生成するために,言語精細エンコーダ(LRE)を構築した。
評価実験の結果,本モデルでは,属性および検出条件下での平均性能が6.56%,AUCが5.32%向上した。
コードはGitHubで入手できる。
関連論文リスト
- AdaptPrompt: Parameter-Efficient Adaptation of VLMs for Generalizable Deepfake Detection [7.76090543025328]
画像生成の最近の進歩により、高度にリアルな合成メディアが普及し、信頼性の高いディープフェイク検出の難しさが高まっている。
重要な課題は一般化であり、限られた種類の発電機で訓練された検出器は、目に見えないモデルに直面すると失敗することが多い。
本稿では,大規模視覚言語モデル(特にCLIP)を活用して,多様な生成技術にまたがる合成内容の同定を行うことにより,一般化可能な検出の必要性に対処する。
論文 参考訳(メタデータ) (2025-12-19T16:06:03Z) - PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution [36.409362073662685]
ゼロショットディープフェイク属性(ZS-DFA)のための動的コントラスト学習法(PVLM)を用いた新しい構文認識型視覚言語モデルを提案する。
具体的には、拡散のような未確認の先進発電機に対するディープフェイク属性の属性性能を評価するために、新規できめ細かいZS-DFAベンチマークを実施している。
また,動的コントラスト学習(PVLM)法を用いて,汎用的かつ多様な属性特徴を抽出する革新的な解析誘導型視覚言語モデルを提案する。
論文 参考訳(メタデータ) (2025-04-19T01:11:46Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - GazeCLIP: Enhancing Gaze Estimation Through Text-Guided Multimodal Learning [12.706496295933343]
テキストと顔のコラボレーションを深く探求する新しい視線推定フレームワークであるGazeCLIPを提案する。
具体的には、厳密に設計された言語記述生成器を導入し、粗い方向の手がかりに富んだテキスト信号を生成する。
本研究は,視覚タスクのためのマルチモーダル学習における視線推定と新たな道を開くために,視覚言語を用いた協調作業の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-12-30T15:24:50Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。