論文の概要: Towards General Visual-Linguistic Face Forgery Detection
- arxiv url: http://arxiv.org/abs/2307.16545v2
- Date: Wed, 7 Feb 2024 07:52:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 20:26:08.531713
- Title: Towards General Visual-Linguistic Face Forgery Detection
- Title(参考訳): 汎用視覚言語顔偽造検出に向けて
- Authors: Ke Sun, Shen Chen, Taiping Yao, Haozhe Yang, Xiaoshuai Sun, Shouhong
Ding and Rongrong Ji
- Abstract要約: ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
- 参考スコア(独自算出の注目度): 95.73987327101143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes are realistic face manipulations that can pose serious threats to
security, privacy, and trust. Existing methods mostly treat this task as binary
classification, which uses digital labels or mask signals to train the
detection model. We argue that such supervisions lack semantic information and
interpretability. To address this issues, in this paper, we propose a novel
paradigm named Visual-Linguistic Face Forgery Detection(VLFFD), which uses
fine-grained sentence-level prompts as the annotation. Since text annotations
are not available in current deepfakes datasets, VLFFD first generates the
mixed forgery image with corresponding fine-grained prompts via Prompt Forgery
Image Generator (PFIG). Then, the fine-grained mixed data and coarse-grained
original data and is jointly trained with the Coarse-and-Fine Co-training
framework (C2F), enabling the model to gain more generalization and
interpretability. The experiments show the proposed method improves the
existing detection models on several challenging benchmarks. Furthermore, we
have integrated our method with multimodal large models, achieving noteworthy
results that demonstrate the potential of our approach. This integration not
only enhances the performance of our VLFFD paradigm but also underscores the
versatility and adaptability of our method when combined with advanced
multimodal technologies, highlighting its potential in tackling the evolving
challenges of deepfake detection.
- Abstract(参考訳): deepfakeは、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす現実的な顔操作だ。
既存の方法は、このタスクをデジタルラベルやマスク信号を使って検出モデルを訓練するバイナリ分類として扱う。
このような監督には意味的情報と解釈性が欠けていると論じる。
この問題に対処するため,本論文では,微粒な文レベルのプロンプトをアノテーションとして用いた視覚言語的顔偽造検出(VLFFD)という新しいパラダイムを提案する。
現在のdeepfakesデータセットではテキストアノテーションが利用できないため、vlffdはプロンプト偽造画像ジェネレータ(pfig)を介して、対応するきめ細かいプロンプトを持つ混合偽造画像を生成する。
そして、細粒度混合データと粗粒度原データとを混合し、粗粒度共学習フレームワーク(c2f)と共同で訓練することにより、より一般化と解釈性を得ることができる。
提案手法は,いくつかの難解なベンチマークにおいて既存の検出モデルを改善したことを示す。
さらに,本手法をマルチモーダル大規模モデルに統合し,その可能性を示す注目すべき結果を得た。
この統合により、VLFFDパラダイムの性能が向上するだけでなく、高度なマルチモーダル技術と組み合わせることで、ディープフェイク検出の進化する課題に対処する可能性も強調される。
関連論文リスト
- GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross
Appearance-Edge Learning [49.93362169016503]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for
Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。
SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。
我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文 参考訳(メタデータ) (2022-11-21T09:38:30Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。