論文の概要: GSA-TTS : Toward Zero-Shot Speech Synthesis based on Gradual Style Adaptor
- arxiv url: http://arxiv.org/abs/2505.19384v1
- Date: Mon, 26 May 2025 00:58:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.08376
- Title: GSA-TTS : Toward Zero-Shot Speech Synthesis based on Gradual Style Adaptor
- Title(参考訳): GSA-TTS : 直交型適応器に基づくゼロショット音声合成に向けて
- Authors: Seokgi Lee, Jungjun Kim,
- Abstract要約: 本稿では,GSA-TTS (gradual style adaptor TTS) と新しいスタイルエンコーダについて述べる。
GSA-TTSは、ゼロショット音声合成のための音響参照から徐々に音声スタイルを符号化する。
未確認話者に対してGSA-TTSを試験し,自然性,話者類似性,知性について有望な結果を得た。
- 参考スコア(独自算出の注目度): 1.4656078321003647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the gradual style adaptor TTS (GSA-TTS) with a novel style encoder that gradually encodes speaking styles from an acoustic reference for zero-shot speech synthesis. GSA first captures the local style of each semantic sound unit. Then the local styles are combined by self-attention to obtain a global style condition. This semantic and hierarchical encoding strategy provides a robust and rich style representation for an acoustic model. We test GSA-TTS on unseen speakers and obtain promising results regarding naturalness, speaker similarity, and intelligibility. Additionally, we explore the potential of GSA in terms of interpretability and controllability, which stems from its hierarchical structure.
- Abstract(参考訳): ゼロショット音声合成のための音響参照から音声スタイルを徐々に符号化する新しいスタイルエンコーダを備えた段階的スタイルアダプタTS(GSA-TTS)を提案する。
GSAはまず各意味音ユニットの局所的なスタイルをキャプチャする。
そして、局所的なスタイルを自己注意で組み合わせ、グローバルなスタイル状態を得る。
この意味的かつ階層的な符号化戦略は、音響モデルに対して堅牢でリッチなスタイルの表現を提供する。
未確認話者に対してGSA-TTSを試験し,自然性,話者類似性,知性について有望な結果を得た。
さらに,その階層構造に由来する解釈可能性や制御可能性の観点から,GSAの可能性を探る。
関連論文リスト
- AutoStyle-TTS: Retrieval-Augmented Generation based Automatic Style Matching Text-to-Speech Synthesis [19.141058309358424]
本研究では,レトリーバル拡張生成(RAG)技術に基づくTTS(text-to-speech)フレームワークを提案する。
様々な文脈で高品質な音声サンプルを含む音声スタイルの知識データベースを構築した。
このスキームは、Llama、PER-LLM-Embedder、Mokaによって抽出された埋め込みを用いて知識データベースのサンプルとマッチングし、合成に最も適した音声スタイルを選択する。
論文 参考訳(メタデータ) (2025-04-14T15:18:59Z) - Noise-robust zero-shot text-to-speech synthesis conditioned on
self-supervised speech-representation model with adapters [47.75276947690528]
ゼロショットテキスト音声(TTS)法は,話者特性を極めて正確に再現することができる。
しかし、この手法は、参照音声が雑音を含む場合、音声合成品質の劣化に悩まされる。
本稿では,ノイズロストゼロショットTS法を提案する。
論文 参考訳(メタデータ) (2024-01-10T12:21:21Z) - StyleSpeech: Self-supervised Style Enhancing with VQ-VAE-based
Pre-training for Expressive Audiobook Speech Synthesis [63.019962126807116]
音声ブックの合成音声の表現的品質は、一般化されたモデルアーキテクチャとアンバランスなスタイル分布によって制限される。
本稿では,VQ-VAEに基づく音声合成のための事前学習による自己教師付きスタイル向上手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T14:13:26Z) - Speech-to-Speech Translation with Discrete-Unit-Based Style Transfer [53.72998363956454]
個別の自己教師付き表現を用いた音声音声合成(S2ST)は顕著な精度を達成している。
高品質な話者並列データの不足は、翻訳中にスタイル転送を学習する上での課題となる。
我々は、個別の自己教師付き音声表現と音色単位に基づいて、スタイル変換機能を備えたS2STパイプラインを設計する。
論文 参考訳(メタデータ) (2023-09-14T09:52:08Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。