論文の概要: Replay Attacks Against Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2505.14862v1
- Date: Tue, 20 May 2025 19:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.723126
- Title: Replay Attacks Against Audio Deepfake Detection
- Title(参考訳): オーディオディープフェイク検出に対するリプレイ攻撃
- Authors: Nicolas Müller, Piotr Kawa, Wei-Herng Choong, Adriana Stan, Aditya Tirumala Bukkapatnam, Karla Pizzi, Alexander Wagner, Philip Sperl,
- Abstract要約: リプレイ攻撃がディープフェイク検出を損なうことを示す。
様々なスピーカーやマイクロホンを通じてディープフェイク音声を再生・再生することにより,スプーフされたサンプルを検出モデルに忠実に表示する。
- 参考スコア(独自算出の注目度): 41.06997055288595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show how replay attacks undermine audio deepfake detection: By playing and re-recording deepfake audio through various speakers and microphones, we make spoofed samples appear authentic to the detection model. To study this phenomenon in more detail, we introduce ReplayDF, a dataset of recordings derived from M-AILABS and MLAAD, featuring 109 speaker-microphone combinations across six languages and four TTS models. It includes diverse acoustic conditions, some highly challenging for detection. Our analysis of six open-source detection models across five datasets reveals significant vulnerability, with the top-performing W2V2-AASIST model's Equal Error Rate (EER) surging from 4.7% to 18.2%. Even with adaptive Room Impulse Response (RIR) retraining, performance remains compromised with an 11.0% EER. We release ReplayDF for non-commercial research use.
- Abstract(参考訳): 様々なスピーカーやマイクを通してディープフェイクの音声を再生・再生することで、スプーフされたサンプルが検出モデルに本物に見えるようにします。
この現象をより詳細に研究するために、M-AILABSとMLAADから派生した記録のデータセットであるReplayDFを紹介する。
様々な音響条件があり、検出は非常に困難である。
5つのデータセットにわたる6つのオープンソース検出モデルの解析では、W2V2-AASISTモデルのEER(Equal Error Rate)が4.7%から18.2%に上昇し、重大な脆弱性が明らかになった。
適応的なRoom Impulse Response (RIR) の再トレーニングであっても、パフォーマンスは11.0% EERで妥協されている。
非商用研究用ReplayDFをリリースする。
関連論文リスト
- Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale [59.25180900687571]
ASVspoof 5は、音声スプーフとディープフェイク攻撃の研究を促進する一連の課題の第5版である。
本稿では,2つの課題トラック,新しいデータベース,評価指標,評価プラットフォームについて述べる。
論文 参考訳(メタデータ) (2024-08-16T13:37:20Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - Improved DeepFake Detection Using Whisper Features [2.846767128062884]
DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。
本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:34:05Z) - Audio-Visual Dataset and Method for Anomaly Detection in Traffic Videos [81.10098876541322]
そこで本研究では,MAVADと呼ばれる実世界のシーンから得られたトラフィック異常検出のための最初の音声視覚データセットについて紹介する。
本稿では,映像系列から抽出した視覚的特徴と音声的特徴をクロスアテンションを用いて組み合わせ,異常を検出するAVACAという手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T12:02:42Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Audio Spoofing Verification using Deep Convolutional Neural Networks by
Transfer Learning [0.0]
本稿では,スプーフィング攻撃を検出するために,ディープ畳み込みニューラルネットワークに基づく音声分類器を提案する。
提案手法は,メル周波数スケールにおけるパワースペクトル密度の音響的時間周波数表現を用いた。
我々は、開発において0.9056%、論理アクセスシナリオの評価データセットにおいて5.32%の誤差率(EER)を達成した。
論文 参考訳(メタデータ) (2020-08-08T07:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。