論文の概要: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
- arxiv url: http://arxiv.org/abs/2405.04880v3
- Date: Wed, 25 Dec 2024 07:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:21:22.048479
- Title: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
- Title(参考訳): ディープフェイク音声の普遍的検出のためのコーデックフェイクデータセットと対策
- Authors: Yuankun Xie, Yi Lu, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Jianhua Tao, Xin Qi, Xiaopeng Wang, Yukun Liu, Haonan Cheng, Long Ye, Yi Sun,
- Abstract要約: ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
- 参考スコア(独自算出の注目度): 42.84634652376024
- License:
- Abstract: With the proliferation of Audio Language Model (ALM) based deepfake audio, there is an urgent need for generalized detection methods. ALM-based deepfake audio currently exhibits widespread, high deception, and type versatility, posing a significant challenge to current audio deepfake detection (ADD) models trained solely on vocoded data. To effectively detect ALM-based deepfake audio, we focus on the mechanism of the ALM-based audio generation method, the conversion from neural codec to waveform. We initially constructed the Codecfake dataset, an open-source, large-scale collection comprising over 1 million audio samples in both English and Chinese, focus on ALM-based audio detection. As countermeasure, to achieve universal detection of deepfake audio and tackle domain ascent bias issue of original sharpness aware minimization (SAM), we propose the CSAM strategy to learn a domain balanced and generalized minima. In our experiments, we first demonstrate that ADD model training with the Codecfake dataset can effectively detects ALM-based audio. Furthermore, our proposed generalization countermeasure yields the lowest average equal error rate (EER) of 0.616% across all test conditions compared to baseline models. The dataset and associated code are available online.
- Abstract(参考訳): 音声言語モデル(ALM)に基づくディープフェイク音声の普及に伴い,一般化検出法が緊急に必要となる。
ALMベースのディープフェイクオーディオは、現在広く、高い騙し、タイプ多目的性を示しており、ヴォコードデータのみに基づいて訓練された現在のオーディオディープフェイク検出(ADD)モデルに重大な課題となっている。
ALMに基づくディープフェイク音声を効果的に検出するために、我々はALMに基づく音声生成手法のメカニズム、ニューラルコーデックから波形への変換に焦点を当てた。
当初我々は、英語と中国語の両方で100万以上のオーディオサンプルからなるオープンソースの大規模コレクションであるCodecfakeデータセットを構築し、ALMに基づく音声検出に焦点を当てた。
対策として、深層音の普遍的検出と、元のシャープネス認識最小化(SAM)のドメイン上昇バイアス問題に取り組むために、ドメインバランスと一般化されたミニマを学習するためのCSAM戦略を提案する。
実験では、まず、Codecfakeデータセットを用いたADDモデルトレーニングが、ALMベースの音声を効果的に検出できることを実証した。
さらに, 提案手法は, ベースラインモデルと比較して, 試験条件全体の平均等式誤差率(EER)が0.616%以下であることを示す。
データセットと関連するコードはオンラインで公開されている。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? [40.38305757279412]
音声言語モデル(ALM)は、大規模言語モデルと音声ニューラルコーデックの発展により急速に進歩している。
本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。
その結果,最新のCMはALMに基づく音声を効果的に検出でき,ほとんどのALM試験条件下では0%の誤差率が得られることがわかった。
論文 参考訳(メタデータ) (2024-08-20T13:45:34Z) - Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。
7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。
実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文 参考訳(メタデータ) (2024-06-12T11:47:23Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。
データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文 参考訳(メタデータ) (2023-11-26T14:17:51Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。