論文の概要: I Can Hear You: Selective Robust Training for Deepfake Audio Detection
- arxiv url: http://arxiv.org/abs/2411.00121v1
- Date: Thu, 31 Oct 2024 18:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:28:01.576738
- Title: I Can Hear You: Selective Robust Training for Deepfake Audio Detection
- Title(参考訳): ディープフェイクオーディオ検出のための選択的ロバストトレーニング
- Authors: Zirui Zhang, Wei Hao, Aroon Sankoh, William Lin, Emanuel Mendiola-Ortiz, Junfeng Yang, Chengzhi Mao,
- Abstract要約: 私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
- 参考スコア(独自算出の注目度): 16.52185019459127
- License:
- Abstract: Recent advances in AI-generated voices have intensified the challenge of detecting deepfake audio, posing risks for scams and the spread of disinformation. To tackle this issue, we establish the largest public voice dataset to date, named DeepFakeVox-HQ, comprising 1.3 million samples, including 270,000 high-quality deepfake samples from 14 diverse sources. Despite previously reported high accuracy, existing deepfake voice detectors struggle with our diversely collected dataset, and their detection success rates drop even further under realistic corruptions and adversarial attacks. We conduct a holistic investigation into factors that enhance model robustness and show that incorporating a diversified set of voice augmentations is beneficial. Moreover, we find that the best detection models often rely on high-frequency features, which are imperceptible to humans and can be easily manipulated by an attacker. To address this, we propose the F-SAT: Frequency-Selective Adversarial Training method focusing on high-frequency components. Empirical results demonstrate that using our training dataset boosts baseline model performance (without robust training) by 33%, and our robust training further improves accuracy by 7.7% on clean samples and by 29.3% on corrupted and attacked samples, over the state-of-the-art RawNet3 model.
- Abstract(参考訳): AI生成音声の最近の進歩は、ディープフェイク音声の検出、詐欺のリスク、偽情報の拡散といった課題を強化している。
この問題に対処するため、14の異なるソースから270,000の高品質なディープフェイクサンプルを含む13万のサンプルを含む、DeepFakeVox-HQという、これまでで最大の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦労し、その検出成功率は、現実的な汚職や敵の攻撃によってさらに減少する。
モデルロバスト性を高める要因を総合的に検討し,多種多様な音声拡張を取り入れることが有用であることを示す。
さらに、最良の検出モデルは、人には受け入れられず、容易に攻撃者によって操作できる高周波機能に頼っていることが判明した。
そこで本研究では,高周波成分に着目したF-SAT:周波数選択型適応学習手法を提案する。
実験の結果、我々のトレーニングデータセットを使用することで、ベースラインモデルのパフォーマンスが33%向上し、堅牢なトレーニングにより、クリーンサンプルでは7.7%向上し、最先端のRawNet3モデルでは29.3%向上した。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning [20.625160354407974]
我々は、最も広く採用されているオーディオディープフェイク検知器の攻撃に対する感受性について検討した。
ボリュームコントロールのような操作でさえ、人間の知覚に影響を与えることなく、検出を著しくバイパスすることができる。
本稿では,CLAD(Contrastive Learning-based Audio Deepfake Detector)を提案する。
論文 参考訳(メタデータ) (2024-04-24T13:10:35Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z) - PITCH: AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response [14.604998731837595]
PITCHは対話型ディープフェイク音声通話を検出しタグ付けするための堅牢なチャレンジ応答方式である。
本研究では,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発した。
私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。
論文 参考訳(メタデータ) (2024-02-28T06:17:55Z) - Improved DeepFake Detection Using Whisper Features [2.846767128062884]
DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。
本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:34:05Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z) - Uncertainty-Aware COVID-19 Detection from Imbalanced Sound Data [15.833328435820622]
音声ベースのCOVID-19検出のための複数のディープラーニングモデルを開発するアンサンブルフレームワークを提案する。
誤った予測はしばしば高い不確実性をもたらすことが示されている。
この研究は、より堅牢なサウンドベースのcovid-19自動スクリーニングシステムへの道を開くものだ。
論文 参考訳(メタデータ) (2021-04-05T16:54:03Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Detecting COVID-19 from Breathing and Coughing Sounds using Deep Neural
Networks [68.8204255655161]
私たちは、Convolutional Neural Networksのアンサンブルを適応させて、スピーカーがCOVID-19に感染しているかどうかを分類します。
最終的には、74.9%のUnweighted Average Recall(UAR)、またはニューラルネットワークをアンサンブルすることで、ROC曲線(AUC)の80.7%を達成する。
論文 参考訳(メタデータ) (2020-12-29T01:14:17Z) - From Sound Representation to Model Robustness [82.21746840893658]
本研究では, 環境音の標準的な表現(スペクトログラム)が, 被害者の残差畳み込みニューラルネットワークの認識性能と対角攻撃性に与える影響について検討する。
3つの環境音響データセットの様々な実験から、ResNet-18モデルは、他のディープラーニングアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-27T17:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。