論文の概要: Measuring the Robustness of Audio Deepfake Detectors
- arxiv url: http://arxiv.org/abs/2503.17577v1
- Date: Fri, 21 Mar 2025 23:21:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:11.254518
- Title: Measuring the Robustness of Audio Deepfake Detectors
- Title(参考訳): オーディオディープフェイク検出器のロバスト性測定
- Authors: Xiang Li, Pin-Yu Chen, Wenqi Wei,
- Abstract要約: この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
- 参考スコア(独自算出の注目度): 59.09338266364506
- License:
- Abstract: Deepfakes have become a universal and rapidly intensifying concern of generative AI across various media types such as images, audio, and videos. Among these, audio deepfakes have been of particular concern due to the ease of high-quality voice synthesis and distribution via platforms such as social media and robocalls. Consequently, detecting audio deepfakes plays a critical role in combating the growing misuse of AI-synthesized speech. However, real-world scenarios often introduce various audio corruptions, such as noise, modification, and compression, that may significantly impact detection performance. This work systematically evaluates the robustness of 10 audio deepfake detection models against 16 common corruptions, categorized into noise perturbation, audio modification, and compression. Using both traditional deep learning models and state-of-the-art foundation models, we make four unique observations. First, our findings show that while most models demonstrate strong robustness to noise, they are notably more vulnerable to modifications and compression, especially when neural codecs are applied. Second, speech foundation models generally outperform traditional models across most scenarios, likely due to their self-supervised learning paradigm and large-scale pre-training. Third, our results show that increasing model size improves robustness, albeit with diminishing returns. Fourth, we demonstrate how targeted data augmentation during training can enhance model resilience to unseen perturbations. A case study on political speech deepfakes highlights the effectiveness of foundation models in achieving high accuracy under real-world conditions. These findings emphasize the importance of developing more robust detection frameworks to ensure reliability in practical deployment settings.
- Abstract(参考訳): Deepfakesは、画像、オーディオ、ビデオなど、さまざまなメディアタイプにわたって、生成AIの普遍的かつ迅速な関心事になっている。
中でも音声のディープフェイクは、ソーシャルメディアやロボコールなどのプラットフォームによる高品質な音声合成と配信の容易さから、特に懸念されている。
その結果,AI合成音声の誤用に対処する上で,オーディオディープフェイクの検出が重要な役割を担っている。
しかし、現実のシナリオでは、ノイズ、修正、圧縮といった様々なオーディオの破損が発生し、検出性能に大きな影響を及ぼす可能性がある。
この研究は、ノイズ摂動、オーディオ修正、圧縮に分類される16の一般的な汚損に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
まず、ほとんどのモデルではノイズに対して強い堅牢性を示すが、特にニューラルコーデックを適用する場合、修正や圧縮に対して特に脆弱であることを示す。
第2に、音声基礎モデルは一般的に、自己教師付き学習パラダイムと大規模な事前学習のために、ほとんどのシナリオで従来のモデルよりも優れています。
第3に、モデルサイズの増加は、リターンが低下するにもかかわらず、ロバスト性を改善することを示す。
第4に、トレーニング中のターゲットデータ拡張がモデルレジリエンスを向上し、目に見えない摂動を改善できるかを実証する。
政治スピーチのディープフェイクに関するケーススタディでは、現実の状況下で高い精度を達成するための基礎モデルの有効性を強調している。
これらの知見は、実際のデプロイメント設定における信頼性を確保するために、より堅牢な検出フレームワークを開発することの重要性を強調している。
関連論文リスト
- Pitch Imperfect: Detecting Audio Deepfakes Through Acoustic Prosodic Analysis [6.858439600092057]
音声のディープフェイクを検出するための基礎的な手段として,韻律(Prosody)や高レベルの言語的特徴を探求する。
我々は6つの古典的韻律的特徴に基づく検出器を開発し、我々のモデルが他のベースラインモデルと同様に機能することを実証する。
モデル決定に最も影響を与える韻律的特徴を説明することができることを示す。
論文 参考訳(メタデータ) (2025-02-20T16:52:55Z) - Targeted Augmented Data for Audio Deepfake Detection [11.671275975119089]
そこで本研究では,モデルの決定境界をターゲットとした音声疑似フェイク生成手法を提案する。
敵の攻撃に触発されて、元の実際のデータを摂動させ、不明瞭な予測確率で擬似フェイクを合成する。
論文 参考訳(メタデータ) (2024-07-10T12:31:53Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - RobustMQ: Benchmarking Robustness of Quantized Models [54.15661421492865]
量子化は、限られたリソースを持つデバイスにディープニューラルネットワーク(DNN)をデプロイする上で不可欠なテクニックである。
我々は、ImageNet上の様々なノイズ(障害攻撃、自然破壊、系統的なノイズ)に対する量子化モデルのロバスト性について、徹底的に評価した。
我々の研究は、モデルとその実世界のシナリオにおける展開の堅牢な定量化を推し進めることに貢献している。
論文 参考訳(メタデータ) (2023-08-04T14:37:12Z) - Analyzing Robustness of End-to-End Neural Models for Automatic Speech
Recognition [11.489161072526677]
音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。
本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
論文 参考訳(メタデータ) (2022-08-17T20:00:54Z) - Defensive Patches for Robust Recognition in the Physical World [111.46724655123813]
データエンドディフェンスは、モデルを変更する代わりに入力データの操作によって堅牢性を改善する。
従来のデータエンドディフェンスは、様々なノイズに対する低一般化と、複数のモデル間での弱い転送可能性を示している。
モデルがこれらの機能をよりよく活用することを支援することにより、これらの問題に対処するための防御パッチ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-13T07:34:51Z) - Audio-Visual Event Recognition through the lens of Adversary [38.497204362659296]
本研究は, 対向雑音のレンズによるマルチモーダル学習に関連するいくつかの重要な課題について検討することを目的とする。
我々は,Google AudioSetでトレーニングされた最先端のニューラルモデルを攻撃するために,敵対的な例を構築した。
論文 参考訳(メタデータ) (2020-11-15T01:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。