論文の概要: Towards General Visual-Linguistic Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2307.16545v2
- Date: Wed, 7 Feb 2024 07:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:26:08.531713
- Title: Towards General Visual-Linguistic Face Forgery Detection
- Title(参考訳): 汎用視覚言語顔偽造検出に向けて
- Authors: Ke Sun, Shen Chen, Taiping Yao, Haozhe Yang, Xiaoshuai Sun, Shouhong
Ding and Rongrong Ji
- Abstract要約: ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 95.73987327101143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes are realistic face manipulations that can pose serious threats to
security, privacy, and trust. Existing methods mostly treat this task as binary
classification, which uses digital labels or mask signals to train the
detection model. We argue that such supervisions lack semantic information and
interpretability. To address this issues, in this paper, we propose a novel
paradigm named Visual-Linguistic Face Forgery Detection(VLFFD), which uses
fine-grained sentence-level prompts as the annotation. Since text annotations
are not available in current deepfakes datasets, VLFFD first generates the
mixed forgery image with corresponding fine-grained prompts via Prompt Forgery
Image Generator (PFIG). Then, the fine-grained mixed data and coarse-grained
original data and is jointly trained with the Coarse-and-Fine Co-training
framework (C2F), enabling the model to gain more generalization and
interpretability. The experiments show the proposed method improves the
existing detection models on several challenging benchmarks. Furthermore, we
have integrated our method with multimodal large models, achieving noteworthy
results that demonstrate the potential of our approach. This integration not
only enhances the performance of our VLFFD paradigm but also underscores the
versatility and adaptability of our method when combined with advanced
multimodal technologies, highlighting its potential in tackling the evolving
challenges of deepfake detection.
- Abstract(参考訳): deepfakeは、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす現実的な顔操作だ。
既存の方法は、このタスクをデジタルラベルやマスク信号を使って検出モデルを訓練するバイナリ分類として扱う。
このような監督には意味的情報と解釈性が欠けていると論じる。
この問題に対処するため,本論文では,微粒な文レベルのプロンプトをアノテーションとして用いた視覚言語的顔偽造検出(VLFFD)という新しいパラダイムを提案する。
現在のdeepfakesデータセットではテキストアノテーションが利用できないため、vlffdはプロンプト偽造画像ジェネレータ(pfig)を介して、対応するきめ細かいプロンプトを持つ混合偽造画像を生成する。
そして、細粒度混合データと粗粒度原データとを混合し、粗粒度共学習フレームワーク(c2f)と共同で訓練することにより、より一般化と解釈性を得ることができる。
提案手法は,いくつかの難解なベンチマークにおいて既存の検出モデルを改善したことを示す。
さらに,本手法をマルチモーダル大規模モデルに統合し,その可能性を示す注目すべき結果を得た。
この統合により、VLFFDパラダイムの性能が向上するだけでなく、高度なマルチモーダル技術と組み合わせることで、ディープフェイク検出の進化する課題に対処する可能性も強調される。
関連論文リスト
- MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Standing on the Shoulders of Giants: Reprogramming Visual-Language Model for General Deepfake Detection [16.21235742118949]
本稿では,よく訓練された視覚言語モデル(VLM)を一般深度検出に活用する手法を提案する。
データ摂動によるモデル予測を操作するモデル再プログラミングパラダイムにより,本手法は事前学習したVLMモデルを再プログラムすることができる。
私たちの優れたパフォーマンスは、トレーニング可能なパラメータのコストを低減し、現実世界のアプリケーションにとって有望なアプローチになります。
論文 参考訳(メタデータ) (2024-09-04T12:46:30Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [58.60915132222421]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。