論文の概要: Towards Generalizable Deepfake Detection via Forgery-aware Audio-Visual Adaptation: A Variational Bayesian Approach
- arxiv url: http://arxiv.org/abs/2511.19080v1
- Date: Mon, 24 Nov 2025 13:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.210095
- Title: Towards Generalizable Deepfake Detection via Forgery-aware Audio-Visual Adaptation: A Variational Bayesian Approach
- Title(参考訳): フォージェリー・アウェア・オーディオ・ビジュアル・アダプションによる一般化可能なディープフェイク検出に向けて:変分ベイズ的アプローチ
- Authors: Fan Nie, Jiangqun Ni, Jian Zhang, Bin Zhang, Weizhe Zhang, Bin Li,
- Abstract要約: Forgery-aware Audio-Visual Adaptation with Variational Bayes (FoVB) を開発した。
我々は様々な差分畳み込みとハイパスフィルタを利用して、局所的および大域的偽証トレースを両モードで識別する。
我々のFoVBは、様々なベンチマークにおいて、他の最先端手法よりも優れています。
- 参考スコア(独自算出の注目度): 31.10567291555587
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread application of AIGC contents has brought not only unprecedented opportunities, but also potential security concerns, e.g., audio-visual deepfakes. Therefore, it is of great importance to develop an effective and generalizable method for multi-modal deepfake detection. Typically, the audio-visual correlation learning could expose subtle cross-modal inconsistencies, e.g., audio-visual misalignment, which serve as crucial clues in deepfake detection. In this paper, we reformulate the correlation learning with variational Bayesian estimation, where audio-visual correlation is approximated as a Gaussian distributed latent variable, and thus develop a novel framework for deepfake detection, i.e., Forgery-aware Audio-Visual Adaptation with Variational Bayes (FoVB). Specifically, given the prior knowledge of pre-trained backbones, we adopt two core designs to estimate audio-visual correlations effectively. First, we exploit various difference convolutions and a high-pass filter to discern local and global forgery traces from both modalities. Second, with the extracted forgery-aware features, we estimate the latent Gaussian variable of audio-visual correlation via variational Bayes. Then, we factorize the variable into modality-specific and correlation-specific ones with orthogonality constraint, allowing them to better learn intra-modal and cross-modal forgery traces with less entanglement. Extensive experiments demonstrate that our FoVB outperforms other state-of-the-art methods in various benchmarks.
- Abstract(参考訳): AIGCコンテンツの普及は、前例のない機会だけでなく、オーディオ・ビジュアル・ディープフェイクといった潜在的なセキュリティ上の懸念をもたらしている。
したがって,マルチモーダルディープフェイク検出のための効果的で一般化可能な手法を開発することが重要である。
典型的には、音声と視覚の相関学習は、微妙なクロスモーダルな不整合(例えば、音声と視覚の相違)を露呈し、ディープフェイク検出において重要な手がかりとなる。
本稿では,ガウス分布潜在変数として音声と視覚の相関が近似される変分ベイズ推定による相関学習を再構成し,変分ベイズを用いたフォジェリー認識型オーディオ・ビジュアル適応(FoVB)による深度検出のための新しい枠組みを開発する。
具体的には、事前学習したバックボーンの事前知識を踏まえ、音声と視覚の相関を効果的に推定するために、2つのコア設計を採用する。
まず、様々な差分畳み込みとハイパスフィルタを利用して、局所的および大域的偽証トレースを両モードで識別する。
第二に,抽出したフォージェリ認識機能を用いて,変分ベイズによる音声・視覚相関の潜時ガウス変数を推定する。
そこで我々は,変数を直交制約のあるモダリティ固有および相関特異的な変数に分解し,より少ない絡み合いでモダリティ内およびクロスモーダルのフォージェリートレースを学習する。
大規模な実験により、FoVBは様々なベンチマークで他の最先端手法よりも優れていることが示された。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Benchmarking Cross-Domain Audio-Visual Deception Detection [45.342156006617394]
本稿では,最初のクロスドメイン音声・視覚的誤認検出ベンチマークを提案する。
シングル・ツー・シングルとマルチ・ツー・シングル・ドメインの一般化性能を比較した。
一般化性能を向上させるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T12:06:31Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - A Variational Bayesian Approach to Learning Latent Variables for
Acoustic Knowledge Transfer [55.20627066525205]
本稿では,ディープニューラルネットワーク(DNN)モデルにおける潜伏変数の分布を学習するための変分ベイズ(VB)アプローチを提案する。
我々の提案するVBアプローチは,ターゲットデバイスにおいて良好な改善が得られ,しかも,13の最先端知識伝達アルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2021-10-16T15:54:01Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。