論文の概要: SpoofCeleb: Speech Deepfake Detection and SASV In The Wild
- arxiv url: http://arxiv.org/abs/2409.17285v2
- Date: Tue, 15 Apr 2025 17:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 12:33:31.829734
- Title: SpoofCeleb: Speech Deepfake Detection and SASV In The Wild
- Title(参考訳): SpoofCeleb:音声のディープフェイク検出とSASV
- Authors: Jee-weon Jung, Yihan Wu, Xin Wang, Ji-Hoon Kim, Soumi Maiti, Yuta Matsunaga, Hye-jin Shim, Jinchuan Tian, Nicholas Evans, Joon Son Chung, Wangyou Zhang, Seyun Um, Shinnosuke Takamichi, Shinji Watanabe,
- Abstract要約: SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
- 参考スコア(独自算出の注目度): 76.71096751337888
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces SpoofCeleb, a dataset designed for Speech Deepfake Detection (SDD) and Spoofing-robust Automatic Speaker Verification (SASV), utilizing source data from real-world conditions and spoofing attacks generated by Text-To-Speech (TTS) systems also trained on the same real-world data. Robust recognition systems require speech data recorded in varied acoustic environments with different levels of noise to be trained. However, current datasets typically include clean, high-quality recordings (bona fide data) due to the requirements for TTS training; studio-quality or well-recorded read speech is typically necessary to train TTS models. Current SDD datasets also have limited usefulness for training SASV models due to insufficient speaker diversity. SpoofCeleb leverages a fully automated pipeline we developed that processes the VoxCeleb1 dataset, transforming it into a suitable form for TTS training. We subsequently train 23 contemporary TTS systems. SpoofCeleb comprises over 2.5 million utterances from 1,251 unique speakers, collected under natural, real-world conditions. The dataset includes carefully partitioned training, validation, and evaluation sets with well-controlled experimental protocols. We present the baseline results for both SDD and SASV tasks. All data, protocols, and baselines are publicly available at https://jungjee.github.io/spoofceleb.
- Abstract(参考訳): 本稿では,音声深度検出(SDD)と音声ロバスト自動話者検証(SASV)のためのデータセットであるSpofCelebについて紹介する。
ロバスト音声認識システムでは、異なるレベルの雑音で様々な音響環境に記録された音声データを訓練する必要がある。
しかしながら、現在のデータセットには、TSトレーニングの要件のため、清潔で高品質な記録(bona fide data)が含まれるのが一般的である。
現在のSDDデータセットは、話者の多様性が不十分なため、SASVモデルをトレーニングするのにも有用である。
SpoofCelebは、VoxCeleb1データセットを処理する完全に自動化されたパイプラインを活用して、TSトレーニングに適した形式に変換します。
その後、23のTTSシステムを訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
データセットには、十分に制御された実験プロトコルによる、慎重に分割されたトレーニング、検証、評価セットが含まれている。
SDDタスクとSASVタスクのベースライン結果を示す。
すべてのデータ、プロトコル、ベースラインはhttps://jungjee.github.io/spoofceleb.comで公開されている。
関連論文リスト
- Text-To-Speech Synthesis In The Wild [76.71096751337888]
テキスト音声システム(TTS)は、伝統的にスタジオ品質の控えめなデータベースを用いて訓練されている。
本稿では,話者認識に一般的に使用されるVoxCeleb1データセットに適用した,完全に自動化されたパイプラインの結果であるTS In the Wild (TITW)データセットを紹介する。
我々は、TITW-Easyを用いて、最近の多くのTSモデルをうまくトレーニングできることを示し、TITW-Hardを用いて同様の結果を生成することは極めて困難である。
論文 参考訳(メタデータ) (2024-09-13T10:58:55Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Multi-speaker Text-to-speech Training with Speaker Anonymized Data [40.70515431989197]
話者匿名化(SA)を行ったデータを用いたマルチ話者テキスト音声(TTS)モデルの訓練について検討する。
2つの信号処理ベースと3つのディープニューラルネットワークベースSAメソッドを使用して、マルチスピーカーTSデータセットであるVCTKを匿名化した。
我々は、匿名化されたトレーニングデータと、これらのデータを用いてトレーニングされた下流TSモデルの性能を評価するために、広範囲な客観的および主観的な実験を行った。
論文 参考訳(メタデータ) (2024-05-20T03:55:44Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。