論文の概要: A Data-Driven Diffusion-based Approach for Audio Deepfake Explanations
- arxiv url: http://arxiv.org/abs/2506.03425v1
- Date: Tue, 03 Jun 2025 22:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.069488
- Title: A Data-Driven Diffusion-based Approach for Audio Deepfake Explanations
- Title(参考訳): データ駆動拡散に基づくオーディオディープフェイク説明手法
- Authors: Petr Grinberg, Ankur Kumar, Surya Koppisetti, Gaurav Bharaj,
- Abstract要約: 本稿では,ディープフェイク音声におけるアーティファクト領域を識別する新しいデータ駆動手法を提案する。
本稿では,実音声と音声音声のペア化について検討し,時間周波数表現の差を基調的説明として用いた。
- 参考スコア(独自算出の注目度): 4.8975242634878295
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating explainability techniques, such as SHAP and LRP, in the context of audio deepfake detection is challenging due to lack of clear ground truth annotations. In the cases when we are able to obtain the ground truth, we find that these methods struggle to provide accurate explanations. In this work, we propose a novel data-driven approach to identify artifact regions in deepfake audio. We consider paired real and vocoded audio, and use the difference in time-frequency representation as the ground-truth explanation. The difference signal then serves as a supervision to train a diffusion model to expose the deepfake artifacts in a given vocoded audio. Experimental results on the VocV4 and LibriSeVoc datasets demonstrate that our method outperforms traditional explainability techniques, both qualitatively and quantitatively.
- Abstract(参考訳): 音声ディープフェイク検出の文脈におけるSHAPやLPPなどの説明可能性技術の評価は、明確な真実のアノテーションが欠如しているため困難である。
基礎的な真実を把握できた場合、これらの手法が正確な説明に苦慮していることが分かる。
本研究では,ディープフェイク音声におけるアーティファクト領域を識別する新しいデータ駆動手法を提案する。
本稿では,実音声と音声音声のペア化について検討し,時間周波数表現の差を基調的説明として用いた。
次に、差分信号は、拡散モデルを訓練して、所定のボコードされたオーディオでディープフェイクのアーティファクトを公開するための監督となる。
VocV4およびLibriSeVocデータセットの実験結果から,本手法は定性的・定量的に従来の説明可能性技術より優れていることが示された。
関連論文リスト
- Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。