論文の概要: ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis
- arxiv url: http://arxiv.org/abs/2601.03632v1
- Date: Wed, 07 Jan 2026 06:23:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 02:15:23.296877
- Title: ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis
- Title(参考訳): ReStyle-TTS:ゼロショット音声合成のための相対的・連続的なスタイル制御
- Authors: Haitao Li, Chunxiang Jin, Chenglin Li, Wenhao Guan, Zhengxing Huang, Xie Chen,
- Abstract要約: ゼロショットテキスト音声モデルは、短い参照音声から話者の音色をクローンすることができるが、参照に含まれる話し方も強く継承する。
ゼロショットTSにおける連続的および参照相対的スタイル制御を可能にするフレームワークであるReStyle-TTSを提案する。
- 参考スコア(独自算出の注目度): 35.41874154907003
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Zero-shot text-to-speech models can clone a speaker's timbre from a short reference audio, but they also strongly inherit the speaking style present in the reference. As a result, synthesizing speech with a desired style often requires carefully selecting reference audio, which is impractical when only limited or mismatched references are available. While recent controllable TTS methods attempt to address this issue, they typically rely on absolute style targets and discrete textual prompts, and therefore do not support continuous and reference-relative style control. We propose ReStyle-TTS, a framework that enables continuous and reference-relative style control in zero-shot TTS. Our key insight is that effective style control requires first reducing the model's implicit dependence on reference style before introducing explicit control mechanisms. To this end, we introduce Decoupled Classifier-Free Guidance (DCFG), which independently controls text and reference guidance, reducing reliance on reference style while preserving text fidelity. On top of this, we apply style-specific LoRAs together with Orthogonal LoRA Fusion to enable continuous and disentangled multi-attribute control, and introduce a Timbre Consistency Optimization module to mitigate timbre drift caused by weakened reference guidance. Experiments show that ReStyle-TTS enables user-friendly, continuous, and relative control over pitch, energy, and multiple emotions while maintaining intelligibility and speaker timbre, and performs robustly in challenging mismatched reference-target style scenarios.
- Abstract(参考訳): ゼロショットテキスト音声モデルは、短い参照音声から話者の音色をクローンすることができるが、参照に含まれる話し方も強く継承する。
その結果、所望のスタイルで音声を合成するには、しばしば参照音声を慎重に選択する必要がある。
最近の制御可能なTSメソッドはこの問題に対処しようとするが、通常は絶対的なスタイルターゲットと離散的なテキストプロンプトに依存しているため、連続的および参照相対的なスタイル制御をサポートしない。
ゼロショットTSにおける連続的および参照相対的スタイル制御を可能にするフレームワークであるReStyle-TTSを提案する。
私たちのキーとなる洞察は、効果的なスタイル制御は、明示的な制御機構を導入する前に、まずモデルが参照スタイルに暗黙的な依存を減らしなければなりません。
この目的のために、テキストと参照ガイダンスを独立に制御し、テキストの忠実性を維持しながら参照スタイルへの依存を減らすDCFG(Decoupled Classifier-Free Guidance)を導入する。
これに加えて,Orthogonal LoRA Fusion とともにスタイル固有 LoRA を適用し,マルチ属性制御を連続的かつ不整合的に実現し,参照誘導の弱化による音色漂流を緩和するTimbre Consistency Optimization モジュールを導入する。
実験により、ReStyle-TTSは、知性や話者の音色を維持しつつ、ピッチ、エネルギー、複数の感情に対するユーザフレンドリで、連続的で、相対的な制御を可能にし、ミスマッチした参照ターゲットスタイルのシナリオで堅牢に機能することが示された。
関連論文リスト
- HiStyle: Hierarchical Style Embedding Predictor for Text-Prompt-Guided Controllable Speech Synthesis [17.743822016045446]
制御可能な音声合成とは、特定の韻律的・パラ言語的属性を操作することによって、発話スタイルを正確に制御することを指す。
テキストのプロンプトに条件付けされたスタイル埋め込みを階層的に予測する2段階型埋め込み予測器であるHiStyleを提案する。
論文 参考訳(メタデータ) (2025-09-30T06:31:12Z) - MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control [50.27383290553548]
ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。
ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。