論文の概要: Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction
- arxiv url: http://arxiv.org/abs/2311.02898v2
- Date: Wed, 8 Nov 2023 05:52:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 12:46:30.513595
- Title: Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic
Token Prediction
- Title(参考訳): transduce and speak: 意味トークン予測を用いた音声合成のためのニューラルトランスデューサ
- Authors: Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Dongjune Lee, Nam Soo
Kim
- Abstract要約: 本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
- 参考スコア(独自算出の注目度): 14.661123738628772
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a text-to-speech(TTS) framework based on a neural transducer. We
use discretized semantic tokens acquired from wav2vec2.0 embeddings, which
makes it easy to adopt a neural transducer for the TTS framework enjoying its
monotonic alignment constraints. The proposed model first generates aligned
semantic tokens using the neural transducer, then synthesizes a speech sample
from the semantic tokens using a non-autoregressive(NAR) speech generator. This
decoupled framework alleviates the training complexity of TTS and allows each
stage to focus on 1) linguistic and alignment modeling and 2) fine-grained
acoustic modeling, respectively. Experimental results on the zero-shot adaptive
TTS show that the proposed model exceeds the baselines in speech quality and
speaker similarity via objective and subjective measures. We also investigate
the inference speed and prosody controllability of our proposed model, showing
the potential of the neural transducer for TTS frameworks.
- Abstract(参考訳): 本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。
我々は、wav2vec2.0組み込みから取得した離散化された意味トークンを用いて、その単調なアライメント制約を享受するttsフレームワークにニューラルネットワークトランスデューサを採用することを容易にする。
提案モデルではまずニューラルトランスデューサを用いてアライメントされたセマンティックトークンを生成し,非自己回帰(NAR)音声生成器を用いてセマンティックトークンから音声サンプルを合成する。
この分離されたフレームワークはttsのトレーニングの複雑さを軽減し、各ステージが集中できるようにする
1)言語・アライメントモデリングと
2) きめ細かい音響モデルについて検討した。
ゼロショット適応tts実験の結果,提案モデルが客観的および主観的尺度による音声品質および話者類似度においてベースラインを超えていることがわかった。
また,提案モデルの推論速度と韻律制御性について検討し,TSフレームワークにおけるニューラルトランスデューサの可能性を示した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic
Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。
提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。
ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文 参考訳(メタデータ) (2024-01-03T02:03:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - An investigation of phrase break prediction in an End-to-End TTS system [0.0]
本研究は,TTS(End-to-End Text-to-Speech)システムにおけるリスナー理解を高めるために,外部のフレーズブレーク予測モデルを使用することを検討する。
これらのモデルの有効性は主観的テストにおけるリスナー選好に基づいて評価される。
論文 参考訳(メタデータ) (2023-04-09T04:26:58Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。