論文の概要: Simple and Effective Unsupervised Speech Synthesis
- arxiv url: http://arxiv.org/abs/2204.02524v2
- Date: Thu, 7 Apr 2022 02:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 12:18:40.928070
- Title: Simple and Effective Unsupervised Speech Synthesis
- Title(参考訳): シンプルで効果的な教師なし音声合成
- Authors: Alexander H. Liu, Cheng-I Jeff Lai, Wei-Ning Hsu, Michael Auli, Alexei
Baevskiv, James Glass
- Abstract要約: 簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
- 参考スコア(独自算出の注目度): 97.56065543192699
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the first unsupervised speech synthesis system based on a
simple, yet effective recipe. The framework leverages recent work in
unsupervised speech recognition as well as existing neural-based speech
synthesis. Using only unlabeled speech audio and unlabeled text as well as a
lexicon, our method enables speech synthesis without the need for a
human-labeled corpus. Experiments demonstrate the unsupervised system can
synthesize speech similar to a supervised counterpart in terms of naturalness
and intelligibility measured by human evaluation.
- Abstract(参考訳): 本稿では,単純かつ効果的なレシピに基づく最初の教師なし音声合成システムを提案する。
このフレームワークは、教師なし音声認識および既存のニューラルベース音声合成における最近の研究を活用している。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
実験では、教師なしシステムは、人間の評価によって測定された自然性と知性の観点から、教師なしのシステムと同様の音声を合成できることを示した。
関連論文リスト
- Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Controllable Generation of Artificial Speaker Embeddings through
Discovery of Principal Directions [29.03308434639149]
本研究では,実際の人間にリンクできない人工話者埋め込みを生成する手法を提案する。
制御可能な埋め込みは、訓練中に実際の人間の埋め込みを条件とした音声合成システムに供給することができる。
論文 参考訳(メタデータ) (2023-10-26T15:54:12Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech
Recognition [60.84668086976436]
教師なし音声合成システム(TTS)は、言語中の任意の文章に対応する音声波形を生成することを学習する。
本稿では、教師なし自動音声認識(ASR)の最近の進歩を活用して、教師なしTSシステムを提案する。
教師なしシステムでは、7つの言語で約10~20時間の音声で教師付きシステムに匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2022-03-29T17:57:53Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。