Fugu-MT 論文翻訳(概要): The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio

論文の概要: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio

arxiv url: http://arxiv.org/abs/2405.04880v2
Date: Wed, 15 May 2024 12:24:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-16 15:24:45.379263
Title: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
Title（参考訳）: ディープフェイク音声の普遍的検出のためのコーデックフェイクデータセットと対策
Authors: Yuankun Xie, Yi Lu, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Jianhua Tao, Xin Qi, Xiaopeng Wang, Yukun Liu, Haonan Cheng, Long Ye, Yi Sun,
Abstract要約: ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
参考スコア（独自算出の注目度）: 42.84634652376024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the proliferation of Audio Language Model (ALM) based deepfake audio, there is an urgent need for generalized detection methods. ALM-based deepfake audio currently exhibits widespread, high deception, and type versatility, posing a significant challenge to current audio deepfake detection (ADD) models trained solely on vocoded data. To effectively detect ALM-based deepfake audio, we focus on the mechanism of the ALM-based audio generation method, the conversion from neural codec to waveform. We initially construct the Codecfake dataset, an open-source large-scale dataset, including 2 languages, over 1M audio samples, and various test conditions, focus on ALM-based audio detection. As countermeasure, to achieve universal detection of deepfake audio and tackle domain ascent bias issue of original SAM, we propose the CSAM strategy to learn a domain balanced and generalized minima. In our experiments, we first demonstrate that ADD model training with the Codecfake dataset can effectively detects ALM-based audio. Furthermore, our proposed generalization countermeasure yields the lowest average Equal Error Rate (EER) of 0.616% across all test conditions compared to baseline models. The dataset and associated code are available online.
Abstract（参考訳）: 音声言語モデル(ALM)に基づくディープフェイク音声の普及に伴い,一般化検出法が緊急に必要となる。 ALMベースのディープフェイクオーディオは、現在広く、高い騙し、タイプ多目的性を示しており、ヴォコードデータのみに基づいて訓練された現在のオーディオディープフェイク検出(ADD)モデルに重大な課題となっている。 ALMに基づくディープフェイク音声を効果的に検出するために、我々はALMに基づく音声生成手法のメカニズム、ニューラルコーデックから波形への変換に焦点を当てた。 2つの言語、100万以上のオーディオサンプル、および様々なテスト条件を含むオープンソースの大規模データセットであるCodecfakeデータセットを構築し、ALMに基づくオーディオ検出に焦点を当てた。対策として,本研究では,ドメインバランスと一般化されたミニマを学習するためのCSAM戦略を提案する。実験では、まず、Codecfakeデータセットを用いたADDモデルトレーニングが、ALMベースの音声を効果的に検出できることを実証した。さらに, 提案手法は, ベースラインモデルと比較して, 試験条件全体において平均EER(Equal Error Rate)が0.616%と低い値を示した。データセットと関連するコードはオンラインで公開されている。

関連論文リスト

Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework [8.11594945165255]
オーディオディープフェイクの拡散は、デジタル通信に対する信頼の高まりを示唆している。 LAVAは,音声のディープフェイク検出とモデル認識のための階層的なフレームワークである。生成技術を識別するAudio Deepfake Attribution (ADA) と、特定の生成モデルインスタンスを認識するAudio Deepfake Model Recognition (ADMR) である。
論文参考訳（メタデータ） (2025-08-04T15:31:13Z)
Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection [7.402342914903391]
Rehearsal with Auxiliary-Informed Smpling (RAIS)は、オーディオディープフェイク検出のためのリハーサルベースのCLアプローチである。 RAISはラベル生成ネットワークを使用して補助ラベルを生成し、メモリバッファの多様なサンプル選択を導く。大規模な実験では、RAISは最先端の手法よりも優れており、5つの経験で平均1.953%のEER(Equal Error Rate)を達成する。
論文参考訳（メタデータ） (2025-05-30T11:40:50Z)
ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection [57.29614630309265]
オーディオディープフェイク検出(ADD)は、高忠実度音声生成モデルの台頭と誤用の可能性により、ますます重要になっている。 ALLM4ADD, ALLM-driven framework for ADDを提案する。具体的には, ADDタスクを音声質問応答問題として再構成し, モデルに「この音声は偽物か本物か?」という疑問を提起する。提案手法は,特にデータスカースシナリオにおいて,偽音声検出において優れた性能が得られることを示す実験を行った。
論文参考訳（メタデータ） (2025-05-16T10:10:03Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? [40.38305757279412]
音声言語モデル(ALM)は、大規模言語モデルと音声ニューラルコーデックの発展により急速に進歩している。本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。その結果,最新のCMはALMに基づく音声を効果的に検出でき,ほとんどのALM試験条件下では0%の誤差率が得られることがわかった。
論文参考訳（メタデータ） (2024-08-20T13:45:34Z)
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。 7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文参考訳（メタデータ） (2024-06-12T11:47:23Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文参考訳（メタデータ） (2024-04-07T10:10:15Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文参考訳（メタデータ） (2023-11-26T14:17:51Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文参考訳（メタデータ） (2023-05-25T02:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。