論文の概要: Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.23960v1
- Date: Wed, 25 Mar 2026 05:44:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.147964
- Title: Leave No Stone Unturned: Uncovering Holistic Audio-Visual Intrinsic Coherence for Deepfake Detection
- Title(参考訳): ディープフェイク検出のためのホロスティック・オーディオ・ビジュアル内在性コヒーレンスを発見
- Authors: Jielun Peng, Yabin Wang, Yaqi Li, Long Kong, Xiaopeng Hong,
- Abstract要約: 生成AIは、個人のセキュリティと社会的信頼に対する脅威を強化する、超現実的なオーディオ視覚的ディープフェイクを可能にした。
既存のディープフェイク検出器の多くは、ユニモーダルなアーティファクトやオーディオと視覚の相違に依存しており、両方の情報源を共同で活用することができない。
我々は、頑健で一般化可能な検出は、本質的な音声-視覚的コヒーレンスをモダリティ内および全範囲に根ざすべきであると論じている。
我々は,現在最先端の商用発電機からのテキスト・ツー・ビデオ・フォージェリーと画像・ビデオ・フォージェリーを併用した高忠実なオーディオ・ビジュアル・ディープフェイク・データセットであるHiFi-AVDFを紹介する。
- 参考スコア(独自算出の注目度): 27.756028843178708
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of generative AI has enabled hyper-realistic audio-visual deepfakes, intensifying threats to personal security and social trust. Most existing deepfake detectors rely either on uni-modal artifacts or audio-visual discrepancies, failing to jointly leverage both sources of information. Moreover, detectors that rely on generator-specific artifacts tend to exhibit degraded generalization when confronted with unseen forgeries. We argue that robust and generalizable detection should be grounded in intrinsic audio-visual coherence within and across modalities. Accordingly, we propose HAVIC, a Holistic Audio-Visual Intrinsic Coherence-based deepfake detector. HAVIC first learns priors of modality-specific structural coherence, inter-modal micro- and macro-coherence by pre-training on authentic videos. Based on the learned priors, HAVIC further performs holistic adaptive aggregation to dynamically fuse audio-visual features for deepfake detection. Additionally, we introduce HiFi-AVDF, a high-fidelity audio-visual deepfake dataset featuring both text-to-video and image-to-video forgeries from state-of-the-art commercial generators. Extensive experiments across several benchmarks demonstrate that HAVIC significantly outperforms existing state-of-the-art methods, achieving improvements of 9.39% AP and 9.37% AUC on the most challenging cross-dataset scenario. Our code and dataset are available at https://github.com/tuffy-studio/HAVIC.
- Abstract(参考訳): 生成AIの急速な進歩により、超現実的なオーディオビジョンのディープフェイクが可能になり、個人のセキュリティと社会的信頼に対する脅威が強化された。
既存のディープフェイク検出器のほとんどは、ユニモーダル・アーティファクトまたはオーディオ・ビジュアルの相違に依存しており、両方の情報源を共同で活用することができない。
さらに、発電機固有のアーティファクトに依存する検出器は、目に見えない偽造に直面すると、劣化した一般化を示す傾向にある。
我々は、頑健で一般化可能な検出は、本質的な音声-視覚的コヒーレンスをモダリティ内および全範囲に根ざすべきであると論じている。
そこで本研究では,HAVIC(Helistic Audio-Visual Intrinsic Coherence-based Deepfake detector)を提案する。
HAVICはまず、モーダリティ固有の構造的コヒーレンス、モーダル間マイクロ、マクロコヒーレンスを、認証ビデオの事前学習によって学習する。
学習した先行情報に基づいて、HAVICはさらに、ディープフェイク検出のために音声視覚機能を動的に融合する全体適応アグリゲーションを実行する。
また,現在最先端の商用発電機からのテキスト・ツー・ビデオ・フォージェリーと画像・ビデオ・フォージェリーを併用した高忠実なオーディオ・ビジュアル・ディープフェイク・データセットであるHiFi-AVDFを紹介する。
いくつかのベンチマークによる大規模な実験により、HAVICは既存の最先端の手法を著しく上回り、最も困難なクロスデータセットシナリオにおいて9.39%のAPと9.37%のAUCの改善を達成している。
私たちのコードとデータセットはhttps://github.com/tuffy-studio/HAVICで公開されています。
関連論文リスト
- KLASSify to Verify: Audio-Visual Deepfake Detection Using SSL-based Audio and Handcrafted Visual Features [1.488627850405606]
AV-Deepfake1M 2025チャレンジに対するマルチモーダルアプローチを提案する。
視覚的モダリティには手作りの機能を活用して解釈性と適応性を向上させる。
音声のモダリティには、グラフアテンションネットワークと組み合わせた自己教師付き学習バックボーンを適用し、リッチな音声表現をキャプチャする。
当社のアプローチでは、レジリエンスと潜在的な解釈可能性に重点を置いて、パフォーマンスと実世界のデプロイメントのバランスを取ります。
論文 参考訳(メタデータ) (2025-08-10T13:29:08Z) - DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
DiMoDifはオーディオ・ビジュアル・ディープフェイク検出フレームワークである。
音声の機械知覚におけるモダリティ間差異を利用する。
時間的にディープフェイクの偽造を特定できる。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。