論文の概要: Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis
- arxiv url: http://arxiv.org/abs/2502.14726v1
- Date: Thu, 20 Feb 2025 16:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:26:21.467067
- Title: Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis
- Title(参考訳): ピッチ不完全:音響韻律解析によるオーディオディープフェイク検出
- Authors: Kevin Warren, Daniel Olszewski, Seth Layton, Kevin Butler, Carrie Gates, Patrick Traynor,
- Abstract要約: 音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。
我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。
モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
- 参考スコア(独自算出の注目度): 6.858439600092057
- License:
- Abstract: Audio deepfakes are increasingly in-differentiable from organic speech, often fooling both authentication systems and human listeners. While many techniques use low-level audio features or optimization black-box model training, focusing on the features that humans use to recognize speech will likely be a more long-term robust approach to detection. We explore the use of prosody, or the high-level linguistic features of human speech (e.g., pitch, intonation, jitter) as a more foundational means of detecting audio deepfakes. We develop a detector based on six classical prosodic features and demonstrate that our model performs as well as other baseline models used by the community to detect audio deepfakes with an accuracy of 93% and an EER of 24.7%. More importantly, we demonstrate the benefits of using a linguistic features-based approach over existing models by applying an adaptive adversary using an $L_{\infty}$ norm attack against the detectors and using attention mechanisms in our training for explainability. We show that we can explain the prosodic features that have highest impact on the model's decision (Jitter, Shimmer and Mean Fundamental Frequency) and that other models are extremely susceptible to simple $L_{\infty}$ norm attacks (99.3% relative degradation in accuracy). While overall performance may be similar, we illustrate the robustness and explainability benefits to a prosody feature approach to audio deepfake detection.
- Abstract(参考訳): 音声のディープフェイクは、オーガニックな音声と差別化され、認証システムと人間のリスナーの両方を騙すことが多い。
低レベルの音声機能やブラックボックスモデルトレーニングを最適化するテクニックは多いが、人間が音声認識に使用する機能に注目することは、検出に対する長期的な堅牢なアプローチである可能性が高い。
音声のディープフェイクを検出するための基礎的な手段として,プロソディ,あるいは人間の音声(例えば,ピッチ,イントネーション,ジッタ)の高レベル言語的特徴を探求する。
本研究では,6つの古典的韻律的特徴に基づく検出器を開発し,コミュニティが音響ディープフェイクを精度93%,EER24.7%で検出するために使用する他のベースラインモデルと同様に,我々のモデルが動作することを示す。
さらに,既存のモデルに対して言語的特徴に基づくアプローチを用いることの利点を,検知器に対する$L_{\infty}$ノルムアタックを用いて適応的敵に適用し,説明可能性のトレーニングに注意機構を用いることで示す。
モデル決定に最も影響を与える韻律的特徴 (Jitter, Shimmer, Mean Basic Frequency) を説明することができ、他のモデルは単純な$L_{\infty}$ノルム攻撃(99.3%の精度の相対的劣化)に対して極めて感受性が高いことを示す。
全体的な性能は似ているかもしれないが、音声のディープフェイク検出に対する韻律的特徴に対する頑健さと説明可能性の利点を説明している。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Investigating Causal Cues: Strengthening Spoofed Audio Detection with Human-Discernible Linguistic Features [0.353122873734926]
模倣、リプレイ攻撃、ディープフェイクなどのスプーフ付きオーディオは、情報の完全性に対する社会的課題を生み出している。
近年、研究者は社会言語学の専門家と共同で、spoofed audio sample with Expert Defined Linguistic Features (EDLFs) をラベル付けしている。
EDLFによる音声データの従来の特徴と一般的な特徴を拡張した場合,いくつかのディープフェイク検出アルゴリズムが改良されていることが確認された。
論文 参考訳(メタデータ) (2024-09-09T19:47:57Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - A Lightweight Speaker Recognition System Using Timbre Properties [0.5708902722746041]
ランダム森林分類器に基づく軽量テキスト非依存話者認識モデルを提案する。
また、話者認証と識別タスクの両方に使用される新機能も導入されている。
このプロトタイプは7つの最も活発に探索された特性、ブーム性、明るさ、深さ、硬さ、音色、鋭さ、暖かさを使っている。
論文 参考訳(メタデータ) (2020-10-12T07:56:03Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。