論文の概要: GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech
- arxiv url: http://arxiv.org/abs/2606.05889v1
- Date: Thu, 04 Jun 2026 08:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.671364
- Title: GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech
- Title(参考訳): GLASS: GRPO-Trained LoRA for Acoustic Style Steering in Zero-Shot Text-to-Speech (英語)
- Authors: Jaehoon Kang, Yejin Lee, Kyuhong Shim,
- Abstract要約: ゼロショット自動回帰テキスト音声(TTS)における構成可能な音響スタイル制御のためのフレームワークであるGLASSを提案する。
TTSでは、話者プロンプトは、発話率やピッチなどの韻律的な属性で話者のアイデンティティを絡み合わせることが多く、プロンプト自体を変更することなくスタイルを変更することは困難である。
発話速度とピッチ制御実験は, 自然性, 話者類似性, 知能性を保ちながら, 目的のスタイルシフトを示し, 独立に訓練されたアダプタ間でスムーズで多軸な構成を示す。
- 参考スコア(独自算出の注目度): 12.143236645802787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose GLASS, a framework for composable acoustic style control in zero-shot autoregressive text-to-speech (TTS) that learns controls from post-generation rewards rather than style labels. In zero-shot TTS, a speaker prompt often entangles speaker identity with prosodic attributes such as speaking rate and pitch, making it difficult to change style without changing the prompt itself. GLASS instead treats each acoustic attribute as a reward-defined control direction. For each control axis, GLASS freezes the TTS backbone and trains one lightweight LoRA adapter with Group Relative Policy Optimization (GRPO), using speech-token length and mean F0 as style rewards and WER as an intelligibility anchor. Because each control is represented as a LoRA weight update, independently trained adapters can be swapped, interpolated, and composed through linear LoRA arithmetic without retraining the backbone. Experiments on speaking rate and pitch control show targeted style shifts while preserving naturalness, speaker similarity, and intelligibility, and demonstrate smooth interpolation and multi-axis composition across independently trained adapters.
- Abstract(参考訳): 本稿では,ゼロショット自動回帰テキスト合成(TTS)における可聴性制御のためのフレームワークであるGLASSを提案する。
ゼロショットTSでは、話者プロンプトは、発話率やピッチなどの韻律的な属性で話者のアイデンティティを絡み合わせることが多く、プロンプト自体を変更することなくスタイルを変更することが困難になる。
代わりに、GLASSは各音響特性を報酬定義制御方向として扱う。
各制御軸について、GLASSはTSバックボーンを凍結し、グループ相対ポリシー最適化(GRPO)を用いて1つの軽量LoRAアダプタを訓練する。
各制御はLoRA重み更新として表現されるため、独立に訓練されたアダプタは、バックボーンをリトレーニングすることなく、リニアなLoRA演算で置き換え、補間し、構成することができる。
発話速度とピッチ制御実験は, 自然性, 話者類似性, 知能性を保ちながら, 目的のスタイルシフトを示し, 独立に訓練されたアダプタ間のスムーズな補間と多軸構成を示す。
関連論文リスト
- ID-LoRA: Identity-Driven Audio-Video Personalization with In-Context LoRA [63.95311560556552]
既存のビデオパーソナライズ手法は、視覚的類似性を保ちながら、ビデオとオーディオを別々に扱う。
被験者の外観と音声を1つのモデルで共同生成するID-LoRAを提案する。
人間の嗜好研究において、ID-LoRA は Kling 2.6 Pro よりも 73% のアノテータが音声に類似し、65% が話し方で好まれる。
論文 参考訳(メタデータ) (2026-03-10T22:23:36Z) - Lombard Speech Synthesis for Any Voice with Controllable Style Embeddings [61.29502937013759]
任意の話者に対するロンバルド音声を訓練中に明示的なロンバルドデータを必要とせずに合成できる制御可能なテキスト音声合成システム(TTS)。
提案手法では,大規模で韻律的に多様なデータセットから学習したスタイル埋め込みを活用し,主成分分析(PCA)を用いてLombard属性との相関を解析する。
論文 参考訳(メタデータ) (2026-01-19T11:25:19Z) - ReStyle-TTS: Relative and Continuous Style Control for Zero-Shot Speech Synthesis [35.41874154907003]
ゼロショットテキスト音声モデルは、短い参照音声から話者の音色をクローンすることができるが、参照に含まれる話し方も強く継承する。
ゼロショットTSにおける連続的および参照相対的スタイル制御を可能にするフレームワークであるReStyle-TTSを提案する。
論文 参考訳(メタデータ) (2026-01-07T06:23:23Z) - HiStyle: Hierarchical Style Embedding Predictor for Text-Prompt-Guided Controllable Speech Synthesis [17.743822016045446]
制御可能な音声合成とは、特定の韻律的・パラ言語的属性を操作することによって、発話スタイルを正確に制御することを指す。
テキストのプロンプトに条件付けされたスタイル埋め込みを階層的に予測する2段階型埋め込み予測器であるHiStyleを提案する。
論文 参考訳(メタデータ) (2025-09-30T06:31:12Z) - StyleSpeech: Parameter-efficient Fine Tuning for Pre-trained Controllable Text-to-Speech [13.713209707407712]
StyleSpeechは、合成音声の自然性と精度を高める新しいテキスト音声合成システムである。
既存のTS技術に基づいて、StyleSpeechには独自のStyle Decorator構造が組み込まれており、ディープラーニングモデルでスタイルと音素の特徴を同時に学習することができる。
LoRAは、事前訓練されたモデルにおけるスタイル機能の効率的な適応を可能にする。
論文 参考訳(メタデータ) (2024-08-27T00:37:07Z) - ControlSpeech: Towards Simultaneous and Independent Zero-shot Speaker Cloning and Zero-shot Language Style Control [50.27383290553548]
ControlSpeechは、話者の声を完全にクローンし、任意の制御と話し方の調整を可能にするTTS(text-to-speech)システムである。
ControlSpeechは、制御性、音色類似性、音質、堅牢性、一般化性の観点から、同等または最先端(SOTA)性能を示す。
論文 参考訳(メタデータ) (2024-06-03T11:15:16Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。