Fugu-MT 論文翻訳(概要): Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio

論文の概要: Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio

arxiv url: http://arxiv.org/abs/2406.08112v1
Date: Wed, 12 Jun 2024 11:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 17:05:29.596415
Title: Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio
Title（参考訳）: Codecfake: LLMベースのDeepfakeオーディオ検出のための初期データセット
Authors: Yi Lu, Yuankun Xie, Ruibo Fu, Zhengqi Wen, Jianhua Tao, Zhiyong Wang, Xin Qi, Xuefei Liu, Yongwei Li, Yukun Liu, Xiaopeng Wang, Shuchen Shi,
Abstract要約: 大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。 7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
参考スコア（独自算出の注目度）: 40.21394391724075
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the proliferation of Large Language Model (LLM) based deepfake audio, there is an urgent need for effective detection methods. Previous deepfake audio generation methods typically involve a multi-step generation process, with the final step using a vocoder to predict the waveform from handcrafted features. However, LLM-based audio is directly generated from discrete neural codecs in an end-to-end generation process, skipping the final step of vocoder processing. This poses a significant challenge for current audio deepfake detection (ADD) models based on vocoder artifacts. To effectively detect LLM-based deepfake audio, we focus on the core of the generation process, the conversion from neural codec to waveform. We propose Codecfake dataset, which is generated by seven representative neural codec methods. Experiment results show that codec-trained ADD models exhibit a 41.406% reduction in average equal error rate compared to vocoder-trained ADD models on the Codecfake test set.
Abstract（参考訳）: LLM(Large Language Model)に基づくディープフェイク音声の普及に伴い,効果的な検出法が緊急に必要となる。従来のディープフェイク音声生成法は、通常、多段階生成プロセスを含み、最後のステップは、ボイコーダを使用して手作りの特徴から波形を予測する。しかし、LSMベースのオーディオは、個別のニューラルコーデックからエンドツーエンドの生成プロセスで直接生成され、ボコーダ処理の最終ステップをスキップする。これは、ボコーダのアーティファクトに基づいた現在のオーディオディープフェイク検出(ADD)モデルにとって大きな課題となる。 LLMに基づくディープフェイク音声を効果的に検出するために、我々は生成プロセスのコア、ニューラルコーデックから波形への変換に焦点を当てた。 7つの代表的ニューラルコーデック法により生成されたCodecfakeデータセットを提案する。実験結果から,Codecfake テストセットにおけるvocoder トレーニング ADD モデルと比較して,コーデック学習 ADD モデルの平均誤差率は41.406% 減少していることがわかった。

関連論文リスト

Towards Generalized Source Tracing for Codec-Based Deepfake Speech [52.68106957822706]
本稿では,意味的特徴符号化にWhisperを,音響的特徴符号化にAudioMAEにWav2vec2を併用したSemantic-Acoustic Source Tracing Network(SASTNet)を紹介する。提案したSASTNetは,CodecFake+データセットのCoSGテストセット上での最先端性能を実現し,信頼性の高いソーストレースの有効性を実証する。
論文参考訳（メタデータ） (2025-06-08T21:36:10Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
Does Current Deepfake Audio Detection Model Effectively Detect ALM-based Deepfake Audio? [40.38305757279412]
音声言語モデル(ALM)は、大規模言語モデルと音声ニューラルコーデックの発展により急速に進歩している。本稿では,ALM音声に対する電流対策(CM)の有効性について検討する。その結果,最新のCMはALMに基づく音声を効果的に検出でき,ほとんどのALM試験条件下では0%の誤差率が得られることがわかった。
論文参考訳（メタデータ） (2024-08-20T13:45:34Z)
Neural Speech and Audio Coding [19.437080345021105]
本稿では,ニューラル音声および音声符号化システムの領域におけるモデルベースおよびデータ駆動型アプローチの統合について検討する。既存のコーデックの出力を後処理するように設計されたニューラルネットワークベースの信号エンハンサーを導入している。本稿では、精神音響学的に校正された損失関数を用いて、エンドツーエンドのニューラルオーディオコーデックを訓練する方法について検討する。
論文参考訳（メタデータ） (2024-08-13T15:13:21Z)
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文参考訳（メタデータ） (2024-05-08T08:28:40Z)
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文参考訳（メタデータ） (2023-05-25T02:54:29Z)
An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。 8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文参考訳（メタデータ） (2022-08-20T09:23:21Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文参考訳（メタデータ） (2022-03-31T15:33:56Z)
DeepA: A Deep Neural Analyzer For Speech And Singing Vocoding [71.73405116189531]
本稿では,従来のボコーダで定義されている音声をエミュレートする入力音声から,F0と音節/音節/音節のエンコーディングを抽出するニューラルボコーダを提案する。ディープ・ニューラル・アナライザは学習可能であるため、信号の再構成と操作がより正確であり、音声から歌への一般化が期待できる。
論文参考訳（メタデータ） (2021-10-13T01:39:57Z)
Audio Dequantization for High Fidelity Audio Generation in Flow-based Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文参考訳（メタデータ） (2020-08-16T09:37:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。