論文の概要: Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching
- arxiv url: http://arxiv.org/abs/2503.18032v1
- Date: Sun, 23 Mar 2025 11:15:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:33:32.949011
- Title: Anomaly Detection and Localization for Speech Deepfakes via Feature Pyramid Matching
- Title(参考訳): 特徴ピラミッドマッチングによる音声ディープフェイクの異常検出と位置推定
- Authors: Emma Coletta, Davide Salvi, Viola Negroni, Daniele Ugo Leonzio, Paolo Bestagini,
- Abstract要約: 音声ディープフェイク(英: Speech Deepfakes)は、ターゲット話者の声を模倣できる合成音声信号である。
音声のディープフェイクを検出する既存の方法は教師あり学習に依存している。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.466707742593078
- License:
- Abstract: The rise of AI-driven generative models has enabled the creation of highly realistic speech deepfakes - synthetic audio signals that can imitate target speakers' voices - raising critical security concerns. Existing methods for detecting speech deepfakes primarily rely on supervised learning, which suffers from two critical limitations: limited generalization to unseen synthesis techniques and a lack of explainability. In this paper, we address these issues by introducing a novel interpretable one-class detection framework, which reframes speech deepfake detection as an anomaly detection task. Our model is trained exclusively on real speech to characterize its distribution, enabling the classification of out-of-distribution samples as synthetically generated. Additionally, our framework produces interpretable anomaly maps during inference, highlighting anomalous regions across both time and frequency domains. This is done through a Student-Teacher Feature Pyramid Matching system, enhanced with Discrepancy Scaling to improve generalization capabilities across unseen data distributions. Extensive evaluations demonstrate the superior performance of our approach compared to the considered baselines, validating the effectiveness of framing speech deepfake detection as an anomaly detection problem.
- Abstract(参考訳): AI駆動生成モデルの台頭は、高度に現実的な音声ディープフェイク(ターゲット話者の声を模倣できる合成オーディオ信号)の作成を可能にし、重要なセキュリティ上の懸念を提起している。
既存の音声ディープフェイク検出法は主に教師あり学習に依存しており、これは2つの重要な制限、すなわち、目に見えない合成技術への限定的な一般化と説明可能性の欠如に悩まされている。
本稿では,音声深度検出を異常検出タスクとして再設定する,新しい解釈可能な一クラス検出フレームワークを導入することにより,これらの課題に対処する。
本モデルでは, 分布を特徴付けるために, 実音声のみに特化して訓練を行い, 分布外サンプルを合成的に分類することができる。
さらに,本フレームワークは,時間領域と周波数領域の両方の異常領域をハイライトし,推論中に解釈可能な異常マップを生成する。
これは、不明瞭なデータ分散における一般化機能を改善するために、Disdisrepancy Scalingで強化された学生-教師機能ピラミッドマッチングシステムを通じて行われる。
大規模な評価では,提案手法の基準値よりも優れた性能を示し,異常検出問題としてのフレーミング音声深度検出の有効性を検証した。
関連論文リスト
- Phoneme-Level Feature Discrepancies: A Key to Detecting Sophisticated Speech Deepfakes [13.218438914114019]
音素機能はディープフェイク検出のための強力な音声表現を提供する。
我々は,音素レベルの音声特徴の不整合を識別し,音声の深度を検出する新しいメカニズムを開発した。
論文 参考訳(メタデータ) (2024-12-17T07:31:19Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。