論文の概要: UniTTS: Residual Learning of Unified Embedding Space for Speech Style
Control
- arxiv url: http://arxiv.org/abs/2106.11171v1
- Date: Mon, 21 Jun 2021 15:07:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-22 15:39:38.598127
- Title: UniTTS: Residual Learning of Unified Embedding Space for Speech Style
Control
- Title(参考訳): UniTTS:音声スタイル制御のための統一埋め込み空間の残差学習
- Authors: Minsu Kang, Sungjae Kim and Injung Kim
- Abstract要約: 干渉を回避し、重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声モデルUniTTSを提案する。
UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。
提案手法は,話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。
- 参考スコア(独自算出の注目度): 2.3526458707956643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel high-fidelity expressive speech synthesis model, UniTTS,
that learns and controls overlapping style attributes avoiding interference.
UniTTS represents multiple style attributes in a single unified embedding space
by the residuals between the phoneme embeddings before and after applying the
attributes. The proposed method is especially effective in controlling multiple
attributes that are difficult to separate cleanly, such as speaker ID and
emotion, because it minimizes redundancy when adding variance in speaker ID and
emotion, and additionally, predicts duration, pitch, and energy based on the
speaker ID and emotion. In experiments, the visualization results exhibit that
the proposed methods learned multiple attributes harmoniously in a manner that
can be easily separated again. As well, UniTTS synthesized high-fidelity speech
signals controlling multiple style attributes. The synthesized speech samples
are presented at https://jackson-kang.github.io/paper_works/UniTTS/demos.
- Abstract(参考訳): 干渉を避けるために重なり合うスタイル属性を学習し、制御する新しい高忠実表現型音声合成モデルUniTTSを提案する。
UniTTSは、属性の適用前後の音素埋め込み間の残差によって、単一の統合埋め込み空間における複数のスタイル属性を表す。
提案手法は, 話者IDと感情の差異を付加する際の冗長性を最小化し, 話者IDと感情に基づいて持続時間, ピッチ, エネルギーを予測できるため, 話者IDや感情などのクリーンな分離が難しい複数の属性を制御するのに有効である。
実験の結果,提案手法は複数の属性を同時に学習し,再分離が容易であることがわかった。
同様に、UniTTSは複数のスタイル属性を制御する高忠実度音声信号を合成した。
合成音声サンプルはhttps://jackson-kang.github.io/paper_works/UniTTS/demosで表示される。
関連論文リスト
- VoiceShop: A Unified Speech-to-Speech Framework for Identity-Preserving Zero-Shot Voice Editing [20.446399170808682]
本稿では,新しい音声合成フレームワークであるVoiceShopを紹介する。
年齢、性別、アクセント、音声スタイルなど、音声の複数の属性を、1つの前方通過で変更することができる。
変換効果の大きさは弱く、分布外話者にはゼロショット能力がない、あるいは合成された出力は望ましくない音色漏れを示す。
論文 参考訳(メタデータ) (2024-04-10T01:33:08Z) - Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Unsupervised TTS Acoustic Modeling for TTS with Conditional Disentangled Sequential VAE [36.50265124324876]
本稿では,テキストと音声のペアを必要としない,教師なしの音声合成モデルであるUTTSを提案する。
このフレームワークは、話者の持続時間モデル、音色特徴(アイデンティティ)、TTS推論のための内容の柔軟な選択を提供する。
実験により、UTTSは人間と客観的評価によって測定された高い自然性と知性のある音声を合成できることが示されている。
論文 参考訳(メタデータ) (2022-06-06T11:51:22Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Few Shot Adaptive Normalization Driven Multi-Speaker Speech Synthesis [18.812696623555855]
複数発話音声合成手法 (FSM-SS) を提案する。
FSM-SSは、未確認者の入力テキストと参照音声サンプルから、その人のスタイルで数ショットで音声を生成することができる。
正規化のアフィンパラメータがエネルギーや基本周波数などの韻律的特徴を捉えるのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-12-14T04:37:07Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - From Speaker Verification to Multispeaker Speech Synthesis, Deep
Transfer with Feedback Constraint [11.982748481062542]
本稿では,マルチスピーカ音声合成のためのフィードバック制約を含むシステムを提案する。
我々は,話者検証ネットワークに係わることにより,話者検証から音声合成への知識伝達の促進に成功している。
モデルはトレーニングされ、公開されているデータセットで評価される。
論文 参考訳(メタデータ) (2020-05-10T06:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。