論文の概要: FMFCC-A: A Challenging Mandarin Dataset for Synthetic Speech Detection
- arxiv url: http://arxiv.org/abs/2110.09441v1
- Date: Mon, 18 Oct 2021 16:22:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 21:44:58.079067
- Title: FMFCC-A: A Challenging Mandarin Dataset for Synthetic Speech Detection
- Title(参考訳): FMFCC-A:合成音声検出のための干渉マンダリンデータセット
- Authors: Zhenyu Zhang, Yewei Gu, Xiaowei Yi, Xianfeng Zhao
- Abstract要約: FMFCC-Aデータセットは、合成音声検出のためのマンダリンデータセットとしては最大である。
FMFCC-Aデータセットには、11のMandarin TTSシステムと2つのMandarin VCシステムによって生成される4万の合成マンダリン発話と、58人の話者から収集された1万の真正マンダリン発話が含まれている。
- 参考スコア(独自算出の注目度): 23.07109183159531
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As increasing development of text-to-speech (TTS) and voice conversion (VC)
technologies, the detection of synthetic speech has been suffered dramatically.
In order to promote the development of synthetic speech detection model against
Mandarin TTS and VC technologies, we have constructed a challenging Mandarin
dataset and organized the accompanying audio track of the first fake media
forensic challenge of China Society of Image and Graphics (FMFCC-A). The
FMFCC-A dataset is by far the largest publicly-available Mandarin dataset for
synthetic speech detection, which contains 40,000 synthesized Mandarin
utterances that generated by 11 Mandarin TTS systems and two Mandarin VC
systems, and 10,000 genuine Mandarin utterances collected from 58 speakers. The
FMFCC-A dataset is divided into the training, development and evaluation sets,
which are used for the research of detection of synthesized Mandarin speech
under various previously unknown speech synthesis systems or audio
post-processing operations. In addition to describing the construction of the
FMFCC-A dataset, we provide a detailed analysis of two baseline methods and the
top-performing submissions from the FMFCC-A, which illustrates the usefulness
and challenge of FMFCC-A dataset. We hope that the FMFCC-A dataset can fill the
gap of lack of Mandarin datasets for synthetic speech detection.
- Abstract(参考訳): tts(text-to-speech)やvc(voice conversion)技術の発展に伴い、合成音声の検出が劇的に進んでいる。
マンダリン TTS と VC 技術に対する合成音声検出モデルの開発を促進するため,我々は,マンダリンの挑戦的データセットを構築し,中国画像・グラフィックス協会(FMFCC-A)の最初のフェイクメディア法医学的課題の音声トラックを整理した。
このデータセットは、11のMandarin TTSシステムと2つのMandarin VCシステムによって生成される4万の合成マンダリン発話と、58人の話者から収集された1万の真正マンダリン発話を含む。
FMFCC-Aデータセットは、様々な未知の音声合成システムや音声後処理操作の下で合成されたマンダリン音声の検出の研究に使用されるトレーニング、開発、評価セットに分けられる。
fmfcc-aデータセットの構築について述べることに加えて、fmfcc-aデータセットの有用性と課題を示す2つのベースラインメソッドとfmfcc-aからの上位パフォーマンス提案について詳細な分析を行う。
FMFCC-Aデータセットが、合成音声検出のためのマンダリンデータセットの欠如のギャップを埋めることを期待している。
関連論文リスト
- Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2 [0.0]
中国語の文脈に基づく画像合成フレームワークCLIP-KNN-Fastspeech2が構築された。
このフレームワークは、複数の基本モデルを統合し、独立した事前学習と共同微調整の戦略を採用する。
複数の公開データセットの実験的結果は、BLEU4、FAD(Fr'echet Audio Distance)、WER(Word Error Ratio)、推論速度などの客観的指標を改善したことを示している。
論文 参考訳(メタデータ) (2024-07-19T11:18:44Z) - Exploring the Viability of Synthetic Audio Data for Audio-Based Dialogue
State Tracking [19.754211231250544]
我々は、カスケードモデルとエンドツーエンドモデルを開発し、合成音声データセットでそれらを訓練し、実際の人間の音声データでそれらをテストする。
実験結果から,合成データセットのみを訓練したモデルでは,その性能を人間の音声データに一般化できることがわかった。
論文 参考訳(メタデータ) (2023-12-04T12:25:46Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。