論文の概要: Detect All-Type Deepfake Audio: Wavelet Prompt Tuning for Enhanced Auditory Perception
- arxiv url: http://arxiv.org/abs/2504.06753v1
- Date: Wed, 09 Apr 2025 10:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-10 13:05:35.519627
- Title: Detect All-Type Deepfake Audio: Wavelet Prompt Tuning for Enhanced Auditory Perception
- Title(参考訳): 全型ディープフェイク音声を検出する:ウェーブレット・プロンプト・チューニングによる聴覚知覚の強化
- Authors: Yuankun Xie, Ruibo Fu, Zhiyong Wang, Xiaopeng Wang, Songjun Cao, Long Ma, Haonan Cheng, Long Ye,
- Abstract要約: 既存の対策 (CM) は単一型オーディオディープフェイク検出 (ADD) では良好に機能するが, クロスタイプのシナリオでは性能が低下する。
我々は、音声、音声、歌声、音楽のクロスタイプディープフェイク検出を取り入れ、現在のCMを評価するためのオールタイプADDベンチマークを包括的に確立した最初の人物である。
異なる音声タイプの聴覚知覚を考慮し,タイプ不変の聴覚深度情報をキャプチャするためのウェーブレット・プロンプト・チューニング(WPT)-SSL法を提案する。
- 参考スコア(独自算出の注目度): 19.10177637063233
- License:
- Abstract: The rapid advancement of audio generation technologies has escalated the risks of malicious deepfake audio across speech, sound, singing voice, and music, threatening multimedia security and trust. While existing countermeasures (CMs) perform well in single-type audio deepfake detection (ADD), their performance declines in cross-type scenarios. This paper is dedicated to studying the alltype ADD task. We are the first to comprehensively establish an all-type ADD benchmark to evaluate current CMs, incorporating cross-type deepfake detection across speech, sound, singing voice, and music. Then, we introduce the prompt tuning self-supervised learning (PT-SSL) training paradigm, which optimizes SSL frontend by learning specialized prompt tokens for ADD, requiring 458x fewer trainable parameters than fine-tuning (FT). Considering the auditory perception of different audio types,we propose the wavelet prompt tuning (WPT)-SSL method to capture type-invariant auditory deepfake information from the frequency domain without requiring additional training parameters, thereby enhancing performance over FT in the all-type ADD task. To achieve an universally CM, we utilize all types of deepfake audio for co-training. Experimental results demonstrate that WPT-XLSR-AASIST achieved the best performance, with an average EER of 3.58% across all evaluation sets. The code is available online.
- Abstract(参考訳): 音声生成技術の急速な進歩は、音声、音声、歌声、音楽にまたがる悪意のあるディープフェイクオーディオのリスクを増大させ、マルチメディアのセキュリティと信頼を脅かしている。
既存の対策(CM)は単一型オーディオディープフェイク検出(ADD)では良好に機能するが、それらの性能はクロスタイプのシナリオでは低下する。
本論文は、全型ADDタスクの研究に充てられる。
我々は、音声、音声、歌声、音楽のクロスタイプディープフェイク検出を取り入れ、現在のCMを評価するためのオールタイプADDベンチマークを包括的に確立した最初の人物である。
次に,PT-SSLトレーニングパラダイムを導入し,ADD用の特別なプロンプトトークンを学習することでSSLフロントエンドを最適化し,微調整(FT)よりも458倍少ないトレーニングパラメータを必要とする。
異なる音声タイプの聴覚知覚を考慮したウェーブレット・プロンプト・チューニング(WPT)-SSL法を提案する。
広義のCMを実現するため,共同学習に様々な種類のディープフェイク音声を利用する。
実験の結果,WPT-XLSR-AASISTはすべての評価セットで平均3.58%のEERを達成できた。
コードはオンラインで入手できる。
関連論文リスト
- The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文 参考訳(メタデータ) (2024-05-08T08:28:40Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Audio Deepfake Attribution: An Initial Dataset and Investigation [41.62487394875349]
我々は、Audio Deepfake Attribution (ADA)と呼ばれるオーディオ生成ツールの属性に対する最初のディープフェイクオーディオデータセットを設計する。
オープンセットオーディオディープフェイク属性(OSADA)のためのクラス・マルチセンター学習(CRML)手法を提案する。
実験の結果,CRML法は実世界のシナリオにおけるオープンセットリスクに効果的に対処できることが示された。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。