Fugu-MT 論文翻訳(概要): The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio

論文の概要: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio

arxiv url: http://arxiv.org/abs/2405.04880v1
Date: Wed, 8 May 2024 08:28:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-09 15:04:15.599475
Title: The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio
Title（参考訳）: ディープフェイク音声の普遍的検出のためのコーデックフェイクデータセットと対策
Authors: Yuankun Xie, Yi Lu, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Jianhua Tao, Xin Qi, Xiaopeng Wang, Yukun Liu, Haonan Cheng, Long Ye, Yi Sun,
Abstract要約: 本稿では,ALMに基づく音声生成手法のメカニズム,ニューラルからウェーブフォームへの変換に着目した。ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。実験の結果,CodecfakeデータセットとCSAMストラテジーを用いたVocodedデータセットの併用により,EER(Equal Error Rate)は0.616%と低かった。
参考スコア（独自算出の注目度）: 42.84634652376024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the proliferation of Audio Language Model (ALM) based deepfake audio, there is an urgent need for effective detection methods. Unlike traditional deepfake audio generation, which often involves multi-step processes culminating in vocoder usage, ALM directly utilizes neural codec methods to decode discrete codes into audio. Moreover, driven by large-scale data, ALMs exhibit remarkable robustness and versatility, posing a significant challenge to current audio deepfake detection (ADD) models. To effectively detect ALM-based deepfake audio, we focus on the mechanism of the ALM-based audio generation method, the conversion from neural codec to waveform. We initially construct the Codecfake dataset, an open-source large-scale dataset, including two languages, millions of audio samples, and various test conditions, tailored for ALM-based audio detection. Additionally, to achieve universal detection of deepfake audio and tackle domain ascent bias issue of original SAM, we propose the CSAM strategy to learn a domain balanced and generalized minima. Experiment results demonstrate that co-training on Codecfake dataset and vocoded dataset with CSAM strategy yield the lowest average Equal Error Rate (EER) of 0.616% across all test conditions compared to baseline models.
Abstract（参考訳）: 音声言語モデル(ALM)に基づくディープフェイク音声の普及により,効果的な検出法が緊急に必要となる。従来のディープフェイク音声生成とは違い、Vocoderの使用で終わるマルチステッププロセスでは、ALMはニューラルコーデック法を直接利用して離散的なコードをオーディオに復号する。さらに、大規模データによって駆動されるALMは、顕著な堅牢性と汎用性を示し、現在のオーディオディープフェイク検出(ADD)モデルにとって大きな課題となっている。 ALMに基づくディープフェイク音声を効果的に検出するために、我々はALMに基づく音声生成手法のメカニズム、ニューラルコーデックから波形への変換に焦点を当てた。 Codecfakeデータセットは、2つの言語、数百万のオーディオサンプル、および様々なテスト条件を含むオープンソースの大規模データセットで、ALMベースのオーディオ検出に適したものだ。さらに,Depfake音声の普遍的検出と,元のSAMのドメイン上昇バイアス問題に取り組むために,ドメインバランスと一般化されたミニマを学習するためのCSAM戦略を提案する。実験結果から,CSAM戦略を用いたCodecfakeデータセットとvocodedデータセットの併用により,ベースラインモデルと比較してテスト条件全体のEER(Equal Error Rate)が0.616%低かった。

関連論文リスト

Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework [8.11594945165255]
オーディオディープフェイクの拡散は、デジタル通信に対する信頼の高まりを示唆している。 LAVAは,音声のディープフェイク検出とモデル認識のための階層的なフレームワークである。生成技術を識別するAudio Deepfake Attribution (ADA) と、特定の生成モデルインスタンスを認識するAudio Deepfake Model Recognition (ADMR) である。
論文参考訳（メタデータ） (2025-08-04T15:31:13Z)
Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection [7.402342914903391]
Rehearsal with Auxiliary-Informed Smpling (RAIS)は、オーディオディープフェイク検出のためのリハーサルベースのCLアプローチである。 RAISはラベル生成ネットワークを使用して補助ラベルを生成し、メモリバッファの多様なサンプル選択を導く。大規模な実験では、RAISは最先端の手法よりも優れており、5つの経験で平均1.953%のEER(Equal Error Rate)を達成する。
論文参考訳（メタデータ） (2025-05-30T11:40:50Z)
ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection [57.29614630309265]
オーディオディープフェイク検出(ADD)は、高忠実度音声生成モデルの台頭と誤用の可能性により、ますます重要になっている。 ALLM4ADD, ALLM-driven framework for ADDを提案する。具体的には, ADDタスクを音声質問応答問題として再構成し, モデルに「この音声は偽物か本物か?」という疑問を提起する。提案手法は,特にデータスカースシナリオにおいて,偽音声検出において優れた性能が得られることを示す実験を行った。
論文参考訳（メタデータ） (2025-05-16T10:10:03Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? [40.38305757279412]
音声言語モデル(ALM)は、大規模言語モデルと音声ニューラルコーデックの発展により急速に進歩している。本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。その結果,最新のCMはALMに基づく音声を効果的に検出でき,ほとんどのALM試験条件下では0%の誤差率が得られることがわかった。
論文参考訳（メタデータ） (2024-08-20T13:45:34Z)
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。 7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文参考訳（メタデータ） (2024-06-12T11:47:23Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文参考訳（メタデータ） (2024-04-07T10:10:15Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset [21.90332221144928]
AV-Deepfake1Mデータセットを提案する。データセットには、コンテンツ駆動(i)ビデオ操作、(ii)オーディオ操作、(iii)2K以上の被験者に対するオーディオ視覚操作が含まれており、結果として100万以上のビデオが生成される。
論文参考訳（メタデータ） (2023-11-26T14:17:51Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文参考訳（メタデータ） (2023-08-07T05:05:49Z)
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文参考訳（メタデータ） (2023-05-25T02:54:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。