Fugu-MT 論文翻訳(概要): SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models

論文の概要: SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models

arxiv url: http://arxiv.org/abs/2408.13893v2
Date: Wed, 28 Aug 2024 07:16:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-29 18:22:33.442504
Title: SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models
Title（参考訳）: SimpleSpeech 2: Flow-based Scalar Latent Transformer Diffusion Modelによるシンプルで効率的なテキストから音声への変換
Authors: Dongchao Yang, Rongjie Huang, Yuanyuan Wang, Haohan Guo, Dading Chong, Songxiang Liu, Xixin Wu, Helen Meng,
Abstract要約: 我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。 SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
参考スコア（独自算出の注目度）: 64.40250409933752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scaling Text-to-speech (TTS) to large-scale datasets has been demonstrated as an effective method for improving the diversity and naturalness of synthesized speech. At the high level, previous large-scale TTS models can be categorized into either Auto-regressive (AR) based (\textit{e.g.}, VALL-E) or Non-auto-regressive (NAR) based models (\textit{e.g.}, NaturalSpeech 2/3). Although these works demonstrate good performance, they still have potential weaknesses. For instance, AR-based models are plagued by unstable generation quality and slow generation speed; meanwhile, some NAR-based models need phoneme-level duration alignment information, thereby increasing the complexity of data pre-processing, model design, and loss design. In this work, we build upon our previous publication by implementing a simple and efficient non-autoregressive (NAR) TTS framework, termed SimpleSpeech 2. SimpleSpeech 2 effectively combines the strengths of both autoregressive (AR) and non-autoregressive (NAR) methods, offering the following key advantages: (1) simplified data preparation; (2) straightforward model and loss design; and (3) stable, high-quality generation performance with fast inference speed. Compared to our previous publication, we present ({\romannumeral1}) a detailed analysis of the influence of speech tokenizer and noisy label for TTS performance; ({\romannumeral2}) four distinct types of sentence duration predictors; ({\romannumeral3}) a novel flow-based scalar latent transformer diffusion model. With these improvement, we show a significant improvement in generation performance and generation speed compared to our previous work and other state-of-the-art (SOTA) large-scale TTS models. Furthermore, we show that SimpleSpeech 2 can be seamlessly extended to multilingual TTS by training it on multilingual speech datasets. Demos are available on: {https://dongchaoyang.top/SimpleSpeech2\_demo/}.
Abstract（参考訳）: テキスト音声(TTS)を大規模データセットに拡張することは、合成音声の多様性と自然性を改善する効果的な方法として実証されてきた。高レベルでは、以前の大規模TSモデルはAuto-Regressive (AR) ベース (\textit{e g }, VALL-E) または Non-auto-Regressive (NAR) ベースモデル (\textit{e g }, NaturalSpeech 2/3) に分類される。これらの作品は優れたパフォーマンスを示しているが、潜在的な弱点がある。例えば、ARベースのモデルは不安定な生成品質と遅い生成速度に悩まされているが、いくつかのNARベースのモデルは音素レベルの持続時間アライメント情報を必要とするため、データ前処理、モデル設計、損失設計の複雑さが増大する。本研究では、SimpleSpeech 2.0と呼ばれる、シンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築する。 SimpleSpeech 2 は自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせ,(1) 簡易データ作成,(2) モデルと損失設計,(3) 高速な推論速度で安定かつ高品質な生成性能を提供する。従来の論文と比較すると, 音声トークン化と雑音ラベルによるTTS性能への影響を詳細に分析し, 4種類の文長予測器, 新規なフローベーススカラーラテントトランスフォーマ拡散モデルを提案する。これらの改良により,従来の作業やSOTA(State-of-the-art)大規模TSモデルと比較して,生成性能と生成速度が大幅に向上した。さらに,SimpleSpeech 2 を多言語音声データセット上でトレーニングすることで,多言語 TTS にシームレスに拡張可能であることを示す。デモは以下の通りである。 {https://dongchaoyang.top/SimpleSpeech2\_demo/}。

関連論文リスト

Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
V2SFlow: Video-to-Speech Generation with Speech Decomposition and Rectified Flow [57.51550409392103]
本稿では,V2SFlowについて紹介する。V2SFlowは,サイレント・トーキング・フェイス・ビデオから直接自然で分かりやすい音声を生成するために設計された,新しいビデオ音声合成(V2S)フレームワークである。これらの課題に対処するため、音声信号を管理可能な部分空間に分解し、それぞれ異なる音声属性を表現し、視覚入力から直接予測する。これらの予測属性からコヒーレントでリアルな音声を生成するために,Transformerアーキテクチャ上に構築された正流整合デコーダを用いる。
論文参考訳（メタデータ） (2024-11-29T05:55:20Z)
DiTTo-TTS: Efficient and Scalable Zero-Shot Text-to-Speech with Diffusion Transformer [9.032701216955497]
市販の事前学習テキストと音声エンコーダを利用した効率よくスケーラブルな拡散変換器(DiT)を提案する。提案手法は, 音声表現の総長の予測により, テキスト・音声アライメントの課題に対処する。トレーニングデータセットとモデルサイズはそれぞれ82K時間と790Mパラメータにスケールします。
論文参考訳（メタデータ） (2024-06-17T11:25:57Z)
Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文参考訳（メタデータ） (2024-06-11T14:17:12Z)
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models [19.029030168939354]
StyleTTS 2は、大きな音声言語モデル(SLM)によるスタイル拡散と対角訓練を活用して、人間レベルのTS合成を実現するテキスト音声合成(TTS)モデルである。 StyleTTS 2は、単一話者のLJSpeechデータセット上の人間の記録を上回り、ネイティブ英語話者によって判断されるマルチ話者のVCTKデータセットにマッチする。この研究は、単一話者と複数話者のデータセット上で初めての人間レベルのTSを実現し、大きなSLMを用いたスタイル拡散と対角訓練の可能性を示した。
論文参考訳（メタデータ） (2023-06-13T11:04:43Z)
StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis [54.39789900854696]
StyleGAN-Tは大規模なテキスト・画像合成の要求に対処する。従来のGANよりも大幅に改善され、サンプルの品質と速度の点で蒸留拡散モデルより優れていた。
論文参考訳（メタデータ） (2023-01-23T16:05:45Z)
ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech [37.29193613404699]
DDPMは高忠実度サンプルを生成する能力が強いため、TTS合成において出現している。従来の研究では、推論ステップの数を最小化しながら、サンプル品質のコストを犠牲にすることで、推論速度の高速化が検討されてきた。本稿では,既存のTSモデルの出力スペクトルを改良する軽量拡散モデルResGradを提案する。
論文参考訳（メタデータ） (2022-12-30T02:31:35Z)
TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。 TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文参考訳（メタデータ） (2022-05-25T06:34:14Z)
Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文参考訳（メタデータ） (2022-04-06T17:59:22Z)
STYLER: Style Modeling with Rapidity and Robustness via SpeechDecomposition for Expressive and Controllable Neural Text to Speech [2.622482339911829]
STYLERは並列化アーキテクチャを持つ新しい表現型テキスト音声合成モデルである。提案手法は, 雑音を伝達することなく, ドメイン逆学習と残余復号化を併用した音声からのノイズモデリング手法である。
論文参考訳（メタデータ） (2021-03-17T07:11:09Z)
FastSpeech 2: Fast and High-Quality End-to-End Text to Speech [189.05831125931053]
FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。 FastSpeechには,(1)教師-学生蒸留パイプラインが複雑で時間を要すること,(2)教師モデルから抽出した期間が十分正確でないこと,(2)教師モデルから抽出したターゲットメル-スペクトログラムが情報損失に悩まされていること,など,いくつかの欠点がある。我々は,教師の簡易な出力ではなく,接地目標でモデルを直接訓練するFastSpeech 2を提案する。
論文参考訳（メタデータ） (2020-06-08T13:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。