論文の概要: Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech
- arxiv url: http://arxiv.org/abs/2505.20868v1
- Date: Tue, 27 May 2025 08:20:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.502102
- Title: Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech
- Title(参考訳): Spotlight-TTS: 音声認識スタイル抽出と音声合成のためのスタイル方向調整によるスタイルのスポットライト
- Authors: Nam-Gyu Kim, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee,
- Abstract要約: 音声認識型スタイル抽出とスタイル方向調整によるスタイル強調を行うSpotlight-TTSを提案する。
TTSモデルへの最適統合のために,抽出したスタイルの方向を調整し,音声品質を向上する。
- 参考スコア(独自算出の注目度): 26.656512860918262
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in expressive text-to-speech (TTS) have introduced diverse methods based on style embedding extracted from reference speech. However, synthesizing high-quality expressive speech remains challenging. We propose Spotlight-TTS, which exclusively emphasizes style via voiced-aware style extraction and style direction adjustment. Voiced-aware style extraction focuses on voiced regions highly related to style while maintaining continuity across different speech regions to improve expressiveness. We adjust the direction of the extracted style for optimal integration into the TTS model, which improves speech quality. Experimental results demonstrate that Spotlight-TTS achieves superior performance compared to baseline models in terms of expressiveness, overall speech quality, and style transfer capability. Our audio samples are publicly available.
- Abstract(参考訳): 近年のTTSは,参照音声から抽出したスタイル埋め込みに基づく多種多様な手法を導入している。
しかし,高品質な表現音声の合成は依然として困難である。
本研究では,音声認識スタイル抽出とスタイル方向調整によるスタイル強調を行うSpotlight-TTSを提案する。
音声認識スタイル抽出は、表現性を向上させるために、異なる音声領域間の連続性を保ちながら、スタイルと関連性の高い音声領域に焦点を当てる。
TTSモデルへの最適統合のために,抽出したスタイルの方向を調整し,音声品質を向上する。
実験結果から,Spotlight-TTSは,表現性,全体的な音声品質,スタイル伝達能力において,ベースラインモデルに比べて優れた性能を示した。
私たちのオーディオサンプルは公開されています。
関連論文リスト
- MegaTTS 3: Sparse Alignment Enhanced Latent Diffusion Transformer for Zero-Shot Speech Synthesis [56.25862714128288]
本稿では,イノベーティブなスパースアライメントアルゴリズムを備えたゼロショット音声合成(TTS)システムであるtextitMegaTTS 3を提案する。
具体的には,検索空間を制限せずにアライメントの困難さを軽減するために,MegaTTS 3にスパースアライメント境界を提供する。
実験により、MegaTTS 3は最先端のゼロショットTTS音声品質を実現し、アクセント強度を柔軟に制御できることが示されている。
論文 参考訳(メタデータ) (2025-02-26T08:22:00Z) - DEX-TTS: Diffusion-based EXpressive Text-to-Speech with Style Modeling on Time Variability [7.005068872406135]
DEX-TTS (Diffusion-based Expressive TTS) は参照型音声合成のための音響モデルである。
DEX-TTSは、参照音声から抽出されたスタイルを扱うエンコーダとアダプタを含んでいる。
さらに、TTSの拡散ネットワークを改善するために、重複パッチと畳み込み周波数パッチの埋め込み方式を導入する。
論文 参考訳(メタデータ) (2024-06-27T12:39:55Z) - Style Mixture of Experts for Expressive Text-To-Speech Synthesis [7.6732312922460055]
StyleMoEは、スタイルエンコーダにおける平均的なスタイル表現の学習の問題に対処するアプローチである。
提案手法は,TSフレームワークのスタイルエンコーダをMixture of Expertsレイヤに置き換える。
客観的および主観的両方の実験は,多様かつ見当たらない参照音声に対するスタイル伝達の改善を実証した。
論文 参考訳(メタデータ) (2024-06-05T22:17:47Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - StyleTTS: A Style-Based Generative Model for Natural and Diverse
Text-to-Speech Synthesis [23.17929822987861]
StyleTTSは並列TTSのためのスタイルベース生成モデルであり、参照音声発話から自然な韻律で多様な音声を合成することができる。
提案手法は, 単一話者と複数話者のデータセットにおいて, 最先端のモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2022-05-30T21:34:40Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。
SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。
提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文 参考訳(メタデータ) (2021-06-06T15:34:11Z) - Towards Multi-Scale Style Control for Expressive Speech Synthesis [60.08928435252417]
提案手法では,マルチスケール参照エンコーダを用いて,対象音声のグローバルな発話レベルと局所的な準音素レベルの特徴を抽出する。
訓練期間中、マルチスケールスタイルモデルは、エンドツーエンドで音声合成モデルと共同で訓練することができる。
論文 参考訳(メタデータ) (2021-04-08T05:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。