論文の概要: ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
- arxiv url: http://arxiv.org/abs/2601.02359v1
- Date: Mon, 05 Jan 2026 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.426239
- Title: ExposeAnyone: Personalized Audio-to-Expression Diffusion Models Are Robust Zero-Shot Face Forgery Detectors
- Title(参考訳): ExposeAnyone:パーソナライズされた音声対圧縮拡散モデル
- Authors: Kaede Shiohara, Toshihiko Yamasaki, Vladislav Golyanik,
- Abstract要約: ビデオ中のディープフェイクを検出するための完全自己教師型アプローチを提案する。
本モデルでは,拡散再構成誤差を用いて,疑わしい映像とパーソナライズされた被写体との同一性距離を算出する。
本手法は, ボケや圧縮などの汚損に対して極めて堅牢であり, 現実の顔偽造検出への適用性を強調している。
- 参考スコア(独自算出の注目度): 58.45131932883374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting unknown deepfake manipulations remains one of the most challenging problems in face forgery detection. Current state-of-the-art approaches fail to generalize to unseen manipulations, as they primarily rely on supervised training with existing deepfakes or pseudo-fakes, which leads to overfitting to specific forgery patterns. In contrast, self-supervised methods offer greater potential for generalization, but existing work struggles to learn discriminative representations only from self-supervision. In this paper, we propose ExposeAnyone, a fully self-supervised approach based on a diffusion model that generates expression sequences from audio. The key idea is, once the model is personalized to specific subjects using reference sets, it can compute the identity distances between suspected videos and personalized subjects via diffusion reconstruction errors, enabling person-of-interest face forgery detection. Extensive experiments demonstrate that 1) our method outperforms the previous state-of-the-art method by 4.22 percentage points in the average AUC on DF-TIMIT, DFDCP, KoDF, and IDForge datasets, 2) our model is also capable of detecting Sora2-generated videos, where the previous approaches perform poorly, and 3) our method is highly robust to corruptions such as blur and compression, highlighting the applicability in real-world face forgery detection.
- Abstract(参考訳): 未知のディープフェイク操作を検出することは、顔偽造検出において最も難しい問題である。
現在の最先端のアプローチは、主に既存のディープフェイクや擬似フェイクによる教師付きトレーニングに依存しており、特定の偽造パターンに過度に適合するので、目に見えない操作に一般化することができない。
対照的に、自己監督的な手法は一般化の可能性が高まるが、既存の作業は自己監督からのみ差別的な表現を学ぶのに苦労している。
本稿では,音声から表現列を生成する拡散モデルに基づく完全自己教師型アプローチであるExposeAnyoneを提案する。
キーとなるアイデアは、モデルが参照セットを使用して特定の被験者にパーソナライズされたら、拡散再構成エラーによって疑わしいビデオとパーソナライズされた被験者の同一性距離を計算し、関心のある顔の偽物検出を可能にすることである。
大規模な実験は
1) 本手法は, DF-TIMIT, DFDCP, KoDF, IDForgeデータセットの平均AUCにおいて, 従来の最先端手法よりも4.22ポイント優れていた。
2)本モデルでは,従来手法が不十分であった Sora2 生成ビデオの検出も可能である。
3) この手法は, ボケや圧縮などの汚損に対して極めて堅牢であり, 現実の顔偽造検出への適用性を強調している。
関連論文リスト
- Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。
本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。
本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文 参考訳(メタデータ) (2024-11-28T13:04:45Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Counterfactual Explanations for Face Forgery Detection via Adversarial Removal of Artifacts [23.279652897139286]
ディープフェイクとして知られる、非常にリアルなAI生成顔偽造は、深刻な社会的懸念を引き起こしている。
本稿では,人工物除去の観点からの顔偽造検出の非現実的説明を行う。
本手法は,90%以上の攻撃成功率と優れた攻撃伝達性を実現する。
論文 参考訳(メタデータ) (2024-04-12T09:13:37Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - SeeABLE: Soft Discrepancies and Bounded Contrastive Learning for
Exposing Deepfakes [7.553507857251396]
本研究では,検出問題を(一級)アウト・オブ・ディストリビューション検出タスクとして形式化する,SeeABLEと呼ばれる新しいディープフェイク検出器を提案する。
SeeABLEは、新しい回帰ベースの有界コントラスト損失を使用して、乱れた顔を事前定義されたプロトタイプにプッシュする。
我々のモデルは競合する最先端の検出器よりも高い性能を示しながら、高度に一般化能力を示す。
論文 参考訳(メタデータ) (2022-11-21T09:38:30Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。