論文の概要: CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning
- arxiv url: http://arxiv.org/abs/2404.15854v1
- Date: Wed, 24 Apr 2024 13:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 19:10:55.762217
- Title: CLAD: Robust Audio Deepfake Detection Against Manipulation Attacks with Contrastive Learning
- Title(参考訳): CLAD:コントラスト学習による操作攻撃に対するロバストオーディオディープフェイク検出
- Authors: Haolin Wu, Jing Chen, Ruiying Du, Cong Wu, Kun He, Xingcan Shang, Hao Ren, Guowen Xu,
- Abstract要約: 我々は、最も広く採用されているオーディオディープフェイク検知器の攻撃に対する感受性について検討した。
ボリュームコントロールのような操作でさえ、人間の知覚に影響を与えることなく、検出を著しくバイパスすることができる。
本稿では,CLAD(Contrastive Learning-based Audio Deepfake Detector)を提案する。
- 参考スコア(独自算出の注目度): 20.625160354407974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing prevalence of audio deepfakes poses significant security threats, necessitating robust detection methods. While existing detection systems exhibit promise, their robustness against malicious audio manipulations remains underexplored. To bridge the gap, we undertake the first comprehensive study of the susceptibility of the most widely adopted audio deepfake detectors to manipulation attacks. Surprisingly, even manipulations like volume control can significantly bypass detection without affecting human perception. To address this, we propose CLAD (Contrastive Learning-based Audio deepfake Detector) to enhance the robustness against manipulation attacks. The key idea is to incorporate contrastive learning to minimize the variations introduced by manipulations, therefore enhancing detection robustness. Additionally, we incorporate a length loss, aiming to improve the detection accuracy by clustering real audios more closely in the feature space. We comprehensively evaluated the most widely adopted audio deepfake detection models and our proposed CLAD against various manipulation attacks. The detection models exhibited vulnerabilities, with FAR rising to 36.69%, 31.23%, and 51.28% under volume control, fading, and noise injection, respectively. CLAD enhanced robustness, reducing the FAR to 0.81% under noise injection and consistently maintaining an FAR below 1.63% across all tests. Our source code and documentation are available in the artifact repository (https://github.com/CLAD23/CLAD).
- Abstract(参考訳): オーディオディープフェイクの普及は、重大なセキュリティ上の脅威を引き起こし、堅牢な検出方法を必要とする。
既存の検出システムは将来性を示すが、悪意のあるオーディオ操作に対する堅牢性はまだ未調査である。
このギャップを埋めるために、我々は最も広く採用されているオーディオディープフェイク検出器の攻撃に対する感受性について、初めて包括的な研究を行った。
驚くべきことに、ボリュームコントロールのような操作でさえ、人間の知覚に影響を与えることなく、検出を著しくバイパスすることができる。
そこで我々はCLAD(Contrastive Learning-based Audio Deepfake Detector)を提案する。
鍵となる考え方は、操作によってもたらされる変動を最小限に抑えるために、対照的な学習を取り入れることである。
さらに,特徴空間内でより密集した実音声をクラスタリングすることで,検出精度の向上を目的とした長さ損失を組み込んだ。
我々は,最も広く採用されているオーディオディープフェイク検出モデルと,様々な操作攻撃に対して提案したCLADを総合的に評価した。
検出モデルは脆弱性を示し、FARはそれぞれ36.69%、31.23%、そして51.28%まで上昇した。
CLADはロバスト性を高め、ノイズ注入下でFARを0.81%まで減少させ、全てのテストでFARを1.63%以下に維持した。
ソースコードとドキュメントはアーティファクトリポジトリ(https://github.com/CLAD23/CLAD)で公開しています。
関連論文リスト
- I Can Hear You: Selective Robust Training for Deepfake Audio Detection [16.52185019459127]
私たちはこれまでに1300万のサンプルからなる、DeepFakeVox-HQという、最大規模の公開音声データセットを確立しました。
これまで報告された高い精度にもかかわらず、既存のディープフェイク音声検出装置は、さまざまな収集されたデータセットに苦戦している。
高周波成分に着目したF-SAT:周波数選択適応学習法を提案する。
論文 参考訳(メタデータ) (2024-10-31T18:21:36Z) - A Two-Stage Dual-Path Framework for Text Tampering Detection and
Recognition [12.639006068141528]
深層学習の出現前は,文書改ざん検出は困難であった。
深層学習に基づくテキスト改ざん検出の分野でいくつかの探究を行った。
我々のPsタンパー検出法は,機能アシスト,監査点位置決め,タンパー認識の3段階を含む。
論文 参考訳(メタデータ) (2024-02-21T05:54:42Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Scalable Ensemble-based Detection Method against Adversarial Attacks for
speaker verification [73.30974350776636]
本稿では,一貫した枠組みにおける主流浄化手法を包括的に比較する。
本稿では, 検出のための高度浄化モジュールを組み込んだ, 簡単に追従できるアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T03:04:05Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - UNBUS: Uncertainty-aware Deep Botnet Detection System in Presence of
Perturbed Samples [1.2691047660244335]
ボットネット検出には極めて低い偽陽性率(FPR)が必要であるが、現代のディープラーニングでは一般的に達成できない。
本稿では,98%以上の精度のボットネット分類のためのLSTMに基づく2つの分類アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2022-04-18T21:49:14Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Realtime Robust Malicious Traffic Detection via Frequency Domain
Analysis [14.211671196458477]
本稿では,リアルタイムMLに基づく不正なトラフィック検出システムであるWhisperを提案する。
42種類の攻撃で実験したところ、ウィスパーは様々な高度なステルス攻撃を正確に検出でき、少なくとも18.36%の改善が達成された。
様々な回避攻撃の下でも、Whisperは検出精度の約90%を維持することができる。
論文 参考訳(メタデータ) (2021-06-28T13:38:05Z) - Robust and Accurate Object Detection via Adversarial Learning [111.36192453882195]
この研究は、逆の例を探索することで、物体検出器の微調整段階を補強する。
提案手法は,オブジェクト検出ベンチマークにおいて,最先端のEfficientDetsの性能を+1.1mAP向上させる。
論文 参考訳(メタデータ) (2021-03-23T19:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。