論文の概要: DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code
Collaborated with Mixer
- arxiv url: http://arxiv.org/abs/2305.19567v4
- Date: Wed, 28 Jun 2023 11:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-29 17:44:03.126859
- Title: DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code
Collaborated with Mixer
- Title(参考訳): DC CoMix TTS: Mixerとのコラボレーションによる離散コード付きエンドツーエンド表現型TS
- Authors: Yerin Choi, Myoung-Wan Koo
- Abstract要約: 改良された韻律モデリングを実現するために,新しい入力表現とシンプルなアーキテクチャを提案する。
TTSにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。
主観的評価と客観的評価の両面から,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the huge successes made in neutral TTS, content-leakage remains a
challenge. In this paper, we propose a new input representation and simple
architecture to achieve improved prosody modeling. Inspired by the recent
success in the use of discrete code in TTS, we introduce discrete code to the
input of the reference encoder. Specifically, we leverage the vector quantizer
from the audio compression model to exploit the diverse acoustic information it
has already been trained on. In addition, we apply the modified MLP-Mixer to
the reference encoder, making the architecture lighter. As a result, we train
the prosody transfer TTS in an end-to-end manner. We prove the effectiveness of
our method through both subjective and objective evaluations. We demonstrate
that the reference encoder learns better speaker-independent prosody when
discrete code is utilized as input in the experiments. In addition, we obtain
comparable results even when fewer parameters are inputted.
- Abstract(参考訳): TTSの中立性は大きな成功を収めたものの、コンテンツ収集は依然として課題だ。
本稿では,プロソディモデリングの改善を実現するための新しい入力表現と単純なアーキテクチャを提案する。
近年のttsにおける離散コードの使用の成功に触発されて,参照エンコーダの入力に離散コードを導入する。
具体的には,音響圧縮モデルのベクトル量子化器を用いて,すでにトレーニング済みの多様な音響情報を活用する。
さらに、修正MLP-Mixerを参照エンコーダに適用し、アーキテクチャをより軽量にする。
その結果、プロソディ転送TSをエンドツーエンドで訓練する。
本手法は主観的評価と客観的評価の両方を通して有効性を示す。
実験において、離散符号を入力として利用する場合、参照エンコーダは話者非依存の韻律を学習できることを実証する。
さらに,少ないパラメータを入力しても比較結果が得られる。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Deliberation of Streaming RNN-Transducer by Non-autoregressive Decoding [21.978994865937786]
この方法は、テキスト機能とオーディオ機能の両方に対応するトランスフォーマーデコーダを各ステップで共有する、いくつかの改善ステップを実行する。
本研究では,ストリーミングRNN-Tモデルの仮説アライメントを条件に,第1パスRNN-Tよりも精度の高い認識結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-01T01:34:28Z) - CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。
本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文 参考訳(メタデータ) (2021-06-14T20:03:57Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Streaming end-to-end multi-talker speech recognition [34.76106500736099]
本稿では,ストリームアンミキシング・アンド・認識変換器(SURT)を提案する。
我々のモデルは、様々な遅延制約を満たすバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を使用している。
公開されているLibriSpeechMixデータセットの実験から,HEATがPITよりも精度が高いことを示す。
論文 参考訳(メタデータ) (2020-11-26T06:28:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。