論文の概要: Style Mixture of Experts for Expressive Text-To-Speech Synthesis
- arxiv url: http://arxiv.org/abs/2406.03637v1
- Date: Wed, 5 Jun 2024 22:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 18:55:13.502674
- Title: Style Mixture of Experts for Expressive Text-To-Speech Synthesis
- Title(参考訳): 表現型テキスト音声合成のためのエキスパートのスタイルミックス
- Authors: Ahad Jawaid, Shreeram Suresh Chandra, Junchen Lu, Berrak Sisman,
- Abstract要約: 本稿では、スタイルエンコーダによってモデル化された埋め込み空間を、スタイルエキスパートによって処理される抽出可能なサブセットに分割するアプローチであるStyleMoEを紹介する。
提案手法の有効性を客観的かつ主観的に実証し,多様かつ不明瞭なスタイルに対するスタイル空間のカバー範囲を拡大する。
- 参考スコア(独自算出の注目度): 7.6732312922460055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in style transfer text-to-speech (TTS) have improved the expressiveness of synthesized speech. Despite these advancements, encoding stylistic information from diverse and unseen reference speech remains challenging. This paper introduces StyleMoE, an approach that divides the embedding space, modeled by the style encoder, into tractable subsets handled by style experts. The proposed method replaces the style encoder in a TTS system with a Mixture of Experts (MoE) layer. By utilizing a gating network to route reference speeches to different style experts, each expert specializes in aspects of the style space during optimization. Our experiments objectively and subjectively demonstrate the effectiveness of our proposed method in increasing the coverage of the style space for diverse and unseen styles. This approach can enhance the performance of existing state-of-the-art style transfer TTS models, marking the first study of MoE in style transfer TTS to our knowledge.
- Abstract(参考訳): 近年,TTS (style transfer text-to-speech) の進歩により,合成音声の表現性が向上した。
これらの進歩にもかかわらず、多様で目に見えない参照音声からのスタイリスティックな情報を符号化することは依然として困難である。
本稿では、スタイルエンコーダによってモデル化された埋め込み空間を、スタイルエキスパートによって処理される抽出可能なサブセットに分割するアプローチであるStyleMoEを紹介する。
提案手法は,TSシステムのスタイルエンコーダをMixture of Experts (MoE)層に置き換える。
ゲーティングネットワークを利用して、異なるスタイルの専門家に参照音声をルーティングすることで、各専門家は最適化中のスタイル空間の側面を専門化する。
提案手法の有効性を客観的かつ主観的に実証し,多様かつ不明瞭なスタイルに対するスタイル空間のカバー範囲を拡大する。
このアプローチは、既存の最先端スタイル転送RTSモデルの性能を向上させることが可能であり、我々の知識に対するスタイル転送RTSにおけるMoEの最初の研究である。
関連論文リスト
- StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Conversation Style Transfer using Few-Shot Learning [56.43383396058639]
本稿では,会話スタイルの伝達を数ショットの学習問題として紹介する。
そこで本研究では,スタイルフリー対話による課題をピボットとして解くための,コンテキスト内学習手法を提案する。
会話スタイルの転送は下流のタスクにも役立ちます。
論文 参考訳(メタデータ) (2023-02-16T15:27:00Z) - Text-driven Emotional Style Control and Cross-speaker Style Transfer in
Neural TTS [7.384726530165295]
合成音声のスタイル制御は、しばしば個別の感情カテゴリーに制限される。
マルチスピーカTTSにおける感情的スタイル制御とクロススピーカースタイル転送のためのテキストベースインタフェースを提案する。
論文 参考訳(メタデータ) (2022-07-13T07:05:44Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。