論文の概要: Are DeepFakes Realistic Enough? Exploring Semantic Mismatch as a Novel Challenge
- arxiv url: http://arxiv.org/abs/2604.28022v1
- Date: Thu, 30 Apr 2026 15:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.170947
- Title: Are DeepFakes Realistic Enough? Exploring Semantic Mismatch as a Novel Challenge
- Title(参考訳): DeepFakesは現実主義的すぎるか? 新しい挑戦としてセマンティック・ミスマッチを探る
- Authors: Sharayu Nilesh Deshmukh, Kailash A. Hambarde, Joana C. Costa, Hugo Proença, Tiago Roxo,
- Abstract要約: 現在のDeepFake検出シナリオは大部分がバイナリですが、データ操作はオーディオやビデオ、あるいはその両方によって異なります。
そこで,本論文では,真正度間の意味レベル不整合を明示的にモデル化することで,4段階の定式化を拡張した新しい評価手法を提案する。
我々は、FakeAVCelebデータセットを用いて、新しい現実的なDeepFake設定における最先端モデルの堅牢性を評価する。
- 参考スコア(独自算出の注目度): 3.88230479224633
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current DeepFake detection scenarios are mostly binary, yet data manipulation can vary across audio, video, or both, whose variability is not captured in binary settings. Four-class audio-visual formulations address this by discriminating manipulation type, but introduce a unresolved problem: models may rely solely on data source integrity to detect DeepFakes without evaluating their semantic consistency. If the DeepFake origin is not in the data source but in its content, can semantic mismatch be assessed by the state-of-the-art? This paper proposes a new evaluation setup, extending the four-class formulation by explicitly modeling semantic-level inconsistency between authentic modalities with the introduction a new class: Real Audio-Real Video with Semantic Mismatch (RARV-SMM). We assess the robustness of state-of-the-art models in this new realistic DeepFake setting, using the FakeAVCeleb dataset, highlighting the limitations of existing approaches when faced with semantic mismatch data. We further introduce three RARV-SMM variants that expose distinct architectural vulnerabilities as audio-visual divergence increases. We also propose a semantic reinforcement strategy that incorporates the semantic mismatch class and ImageBind embeddings to improve DeepFake detection in both our proposed and state-of-the-art settings, on FakeAVCeleb and LAV-DF, paving the way to more realistic DeepFake detectors. The source code and data are available at https://github.com/.
- Abstract(参考訳): 現在のDeepFake検出シナリオは大部分がバイナリだが、データ操作はオーディオ、ビデオ、あるいは両方によって異なる可能性がある。
モデルでは、セマンティックな一貫性を評価せずにDeepFakesを検出するために、データソースの完全性のみに依存している可能性がある。
DeepFakeの起源がデータソースではなくコンテンツにある場合、セマンティックミスマッチは最先端技術によって評価できますか?
本稿では,感性モダリティ間の意味レベル不整合を明示的にモデル化し,セマンティック・ミストッチ(RARV-SMM)を用いたリアルオーディオ・リアル・ビデオ(RARV-SMM)を導入することにより,新たな評価設定を提案する。
我々は、FakeAVCelebデータセットを用いて、新しい現実的なDeepFake設定における最先端モデルの堅牢性を評価し、セマンティックミスマッチデータに直面する既存のアプローチの限界を強調する。
さらにRARV-SMMの3つの変種を導入し、音声・視覚のばらつきが増大するにつれて、異なるアーキテクチャ上の脆弱性を明らかにする。
また,FakeAVCelebとLAV-DFを用いたDeepFake検出において,セマンティックミスマッチクラスとImageBind埋め込みを組み込んだセマンティック強化戦略を提案し,より現実的なDeepFake検出を実現する。
ソースコードとデータはhttps://github.com/.com/で公開されている。
関連論文リスト
- DDL: A Large-Scale Datasets for Deepfake Detection and Localization in Diversified Real-World Scenarios [51.916287988122406]
本稿では,$textbf1.4M+$forgedサンプルを含む大規模ディープフェイク検出およびローカライゼーション(textbfDDL)データセットを提案する。
我々のDDLは、複雑な現実世界の偽造のより困難なベンチマークを提供するだけでなく、次世代のディープフェイク検出、ローカライゼーション、解釈可能性メソッドを構築するための重要なサポートも提供しています。
論文 参考訳(メタデータ) (2025-06-29T15:29:03Z) - A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。
新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。
表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T10:33:15Z) - CrossDF: Improving Cross-Domain Deepfake Detection with Deep Information Decomposition [53.860796916196634]
クロスデータセットディープフェイク検出(CrossDF)の性能を高めるためのディープ情報分解(DID)フレームワークを提案する。
既存のディープフェイク検出方法とは異なり、我々のフレームワークは特定の視覚的アーティファクトよりも高いレベルのセマンティック特徴を優先する。
顔の特徴をディープフェイク関連情報と無関係情報に適応的に分解し、本質的なディープフェイク関連情報のみを用いてリアルタイム・フェイク識別を行う。
論文 参考訳(メタデータ) (2023-09-30T12:30:25Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。