論文の概要: SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment
- arxiv url: http://arxiv.org/abs/2603.25140v1
- Date: Thu, 26 Mar 2026 08:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.171877
- Title: SAVe: Self-Supervised Audio-visual Deepfake Detection Exploiting Visual Artifacts and Audio-visual Misalignment
- Title(参考訳): SAVe:視覚的アーチファクトと視覚的ミスを爆発的に検出する自己監督型オーディオ・ビジュアル・ディープフェイク検出
- Authors: Sahibzada Adil Shahzad, Ammarah Hashmi, Junichi Yamagishi, Yusuke Yasuda, Yu Tsao, Chia-Wen Lin, Yan-Tsung Peng, Hsin-Min Wang,
- Abstract要約: SAVeは,音声・視覚深度検出フレームワークで,映像の完全学習を行う。
SAVEは、タグ付けアーティファクトをエミュレートするために、オンザフライ、アイデンティティ保存、地域対応の自明な擬似操作を生成する。
クロスモーダルな証拠を捉えるために、SAVeはリップ音声同期もモデル化している。
- 参考スコア(独自算出の注目度): 74.05278327933006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal deepfakes can exhibit subtle visual artifacts and cross-modal inconsistencies, which remain challenging to detect, especially when detectors are trained primarily on curated synthetic forgeries. Such synthetic dependence can introduce dataset and generator bias, limiting scalability and robustness to unseen manipulations. We propose SAVe, a self-supervised audio-visual deepfake detection framework that learns entirely on authentic videos. SAVe generates on-the-fly, identity-preserving, region-aware self-blended pseudo-manipulations to emulate tampering artifacts, enabling the model to learn complementary visual cues across multiple facial granularities. To capture cross-modal evidence, SAVe also models lip-speech synchronization via an audio-visual alignment component that detects temporal misalignment patterns characteristic of audio-visual forgeries. Experiments on FakeAVCeleb and AV-LipSync-TIMIT demonstrate competitive in-domain performance and strong cross-dataset generalization, highlighting self-supervised learning as a scalable paradigm for multimodal deepfake detection.
- Abstract(参考訳): マルチモーダルディープフェイクは微妙な視覚的アーティファクトや横断的な不整合を示すことができ、特に検出器が主に硬化した合成フォージェリーで訓練されている場合、検出は困難である。
このような合成依存は、データセットとジェネレータバイアスを導入し、スケーラビリティと堅牢性を目に見えない操作に制限する。
SAVeは,音声・視覚深度検出フレームワークで,映像の完全学習を行う。
SAVeは、タグ付けアーティファクトをエミュレートするために、オンザフライ、アイデンティティ保存、地域対応の自明な擬似マニピュレーションを生成し、モデルが複数の顔の粒度の相補的な視覚的手がかりを学習できるようにする。
クロスモーダルなエビデンスを捉えるため、SAVeは音声-視覚的アライメントコンポーネントを介して唇音声同期をモデル化し、オーディオ-視覚的フォージェリーの特徴のある時間的ミスアライメントパターンを検出する。
FakeAVCelebとAV-LipSync-TIMITの実験はドメイン内の競争性能と強力なクロスデータセットの一般化を示し、マルチモーダルディープフェイク検出のためのスケーラブルなパラダイムとして自己教師付き学習を強調した。
関連論文リスト
- Unleashing Vision-Language Semantics for Deepfake Video Detection [78.7562836979696]
ディープフェイクビデオ検出(DFD)研究は、事前訓練されたビジョンランゲージモデル(VLM)が、異なるアイデンティティにわたるアーティファクトの検出において強力な一般化能力を示すことを示した。
VLAForgeは、深度検出におけるモデルの識別可能性を高めるために、そのようなクロスモーダルセマンティクスの可能性を解き放つ新しいDFDフレームワークである。
論文 参考訳(メタデータ) (2026-03-25T16:05:35Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - AV-Lip-Sync+: Leveraging AV-HuBERT to Exploit Multimodal Inconsistency
for Video Deepfake Detection [32.502184301996216]
マルチモーダル操作(オーディオ・ヴィジュアル・ディープフェイクとも呼ばれる)は、一方的なディープフェイク検出器がマルチメディアコンテンツの偽造を検出するのを困難にしている。
従来は、一様ビデオ法則を主に採用し、教師付き事前訓練を用いて偽造検出を行った。
本研究では,マルチモーダル自己教師付き学習(SSL)機能抽出器に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-05T18:35:03Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - MIS-AVoiDD: Modality Invariant and Specific Representation for
Audio-Visual Deepfake Detection [4.659427498118277]
新しいタイプのディープフェイクが登場し、オーディオまたは視覚的モーダルが操作された。
既存のマルチモーダルディープフェイク検出器は、しばしばビデオからのオーディオとビジュアルストリームの融合に基づいている。
本稿では,マルチモーダルディープフェイク検出のための音声と視覚ストリームの融合を支援するために,表現レベルでの問題に取り組む。
論文 参考訳(メタデータ) (2023-10-03T17:43:24Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。