論文の概要: X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection
- arxiv url: http://arxiv.org/abs/2603.08483v1
- Date: Mon, 09 Mar 2026 15:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.290582
- Title: X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection
- Title(参考訳): X-AVDT:ロバストディープフェイク検出のためのオーディオ・ビジュアル・クロスアテンション
- Authors: Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh,
- Abstract要約: 微粒な音声・動きのアライメントを符号化した生成系内部のクロスアテンション機構
X-AVDTは、DDIMインバージョンを介してアクセスされたジェネレータ内オーディオ視覚信号をプローブし、これらのキューを公開する。
X-AVDTはMMDF上でのリードパフォーマンスを実現し、外部ベンチマークや目に見えないジェネレータに強く一般化する。
- 参考スコア(独自算出の注目度): 17.827028185540467
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The surge of highly realistic synthetic videos produced by contemporary generative systems has significantly increased the risk of malicious use, challenging both humans and existing detectors. Against this backdrop, we take a generator-side view and observe that internal cross-attention mechanisms in these models encode fine-grained speech-motion alignment, offering useful correspondence cues for forgery detection. Building on this insight, we propose X-AVDT, a robust and generalizable deepfake detector that probes generator-internal audio-visual signals accessed via DDIM inversion to expose these cues. X-AVDT extracts two complementary signals: (i) a video composite capturing inversion-induced discrepancies, and (ii) an audio-visual cross-attention feature reflecting modality alignment enforced during generation. To enable faithful cross-generator evaluation, we further introduce MMDF, a new multimodal deepfake dataset spanning diverse manipulation types and rapidly evolving synthesis paradigms, including GANs, diffusion, and flow-matching. Extensive experiments demonstrate that X-AVDT achieves leading performance on MMDF and generalizes strongly to external benchmarks and unseen generators, outperforming existing methods with accuracy improved by 13.1%. Our findings highlight the importance of leveraging internal audio-visual consistency cues for robustness to future generators in deepfake detection.
- Abstract(参考訳): 現代の生成システムによって作られた非常にリアルな合成ビデオの急増は、悪意のある使用のリスクを著しく増加させ、人間と既存の検出器の両方に挑戦している。
このような背景から,これらのモデルの内部のクロスアテンション機構が音声・動きの微粒なアライメントを符号化し,偽造検出に有用な対応手段を提供することを,ジェネレータ側で確認した。
この知見に基づいて,DDIMのインバージョンによってアクセスされるジェネレータ内オーディオ視覚信号を探索し,これらの手がかりを明らかにする,堅牢で一般化可能なディープフェイク検出器であるX-AVDTを提案する。
X-AVDTは2つの補完シグナルを抽出する。
一 逆転により引き起こされる相違を捉えたビデオ合成装置、及び
(II)世代間で強制されるモダリティアライメントを反映した音声・視覚横断的特徴。
忠実なクロスジェネレータ評価を実現するために,多種多様な操作タイプにまたがる新しいマルチモーダルディープフェイクデータセットMMDFを導入する。
大規模な実験により、X-AVDTはMMDFの先行性能を達成し、外部ベンチマークや見えないジェネレータに強く一般化し、13.1%の精度で既存の手法よりも優れていた。
本研究は,ディープフェイク検出における内部音響・視覚的整合性を利用して将来の発電機に堅牢性を持たせることの重要性を強調した。
関連論文リスト
- TLDiffGAN: A Latent Diffusion-GAN Framework with Temporal Information Fusion for Anomalous Sound Detection [39.234515088121086]
本稿では,2つの補足枝からなる新しいフレームワークTLDiffGANを提案する。
あるブランチは、逆行訓練のために潜伏拡散モデルをGANジェネレータに組み込むことで、判別器のタスクをより困難にし、生成したサンプルの品質を向上させる。
また,よく見落とされがちな微妙で局所的な時間パターンに対する感度を高めるために,TMixup Spectrogram Augmentation法を導入する。
論文 参考訳(メタデータ) (2026-02-01T07:04:30Z) - Rethinking Cross-Generator Image Forgery Detection through DINOv3 [62.80415066351157]
クロスジェネレータ検出は、新しい挑戦フォージェネレータモデルとして登場した。
凍結した視覚基盤モデル、特にDINOv3は、既に強力なクロスジェネレータ検出能力を持っていることを示す。
トレーニング不要なトークンランク戦略を導入し、続いて軽量な線形プローブを用いて、認証関連トークンの小さなサブセットを選択する。
論文 参考訳(メタデータ) (2025-11-27T14:01:50Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Breaking Latent Prior Bias in Detectors for Generalizable AIGC Image Detection [11.907536189598577]
現在のAIGC検出器は、トレーニングに使用される同じジェネレータで生成された画像に対してほぼ完璧な精度を達成するが、目に見えないジェネレータからの出力に一般化するのに苦労する。
検出器は、堅牢な生成アーティファクトを学ぶのではなく、初期ノイズベクトルから発生するパターンに関連するショートカットを学習する。
そこで我々は, 発電機の出力多様体に残る逆数例を生成するオン・マニフォールド・逆数訓練(OMAT)を提案する。
論文 参考訳(メタデータ) (2025-06-01T07:20:45Z) - D$^3$: Scaling Up Deepfake Detection by Learning from Discrepancy [29.919663502808575]
既存の文献は、目に見えない発電機上でのディープフェイク検出の一般化能力を強調している。
この研究は、より一般化と堅牢性のある普遍的なディープフェイク検出システムに向けた一歩である。
論文 参考訳(メタデータ) (2024-04-06T10:45:02Z) - GenFace: A Large-Scale Fine-Grained Face Forgery Benchmark and Cross Appearance-Edge Learning [50.7702397913573]
フォトリアリスティック・ジェネレータの急速な進歩は、真の画像と操作された画像の相違がますます不明瞭になっている臨界点に達している。
公開されている顔の偽造データセットはいくつかあるが、偽造顔は主にGANベースの合成技術を用いて生成される。
我々は,大規模で多様できめ細かな高忠実度データセットであるGenFaceを提案し,ディープフェイク検出の進展を促進する。
論文 参考訳(メタデータ) (2024-02-03T03:13:50Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。