論文の概要: Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale
- arxiv url: http://arxiv.org/abs/2511.21270v1
- Date: Wed, 26 Nov 2025 10:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.067505
- Title: Multi-Reward GRPO for Stable and Prosodic Single-Codebook TTS LLMs at Scale
- Title(参考訳): 安定・韻律シングルコードブック TTS LLM 用マルチリワードGRPO
- Authors: Yicheng Zhong, Peiji Yang, Zhisheng Wang,
- Abstract要約: シングルコードブックのテキスト音声モデルは不安定な韻律、話者のドリフト、劣化した自然性を示すことが多い。
単行本TS LLMのトークン生成ポリシーを直接最適化するマルチリワードグループ相対ポリシー最適化フレームワークを提案する。
提案手法は, 単行本TS LLMにおける韻律安定性, 話者類似性, 音声の自然度を連続的に向上することを示す。
- 参考スコア(独自算出の注目度): 12.626090218930578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have transformed text-to-speech (TTS) synthesis, inspiring autoregressive frameworks that represent speech as sequences of discrete codec tokens. Among them, single-codebook TTS LLMs have emerged as compact and streamable architectures that jointly model semantic and acoustic integration. However, despite their efficiency, these models often exhibit unstable prosody, speaker drift, and degraded naturalness. To address these issues, we propose a multi-reward Group Relative Policy Optimization (GRPO) framework that directly optimizes the token generation policy of single-codebook TTS LLMs. Beyond standard intelligibility and speaker similarity objectives, our design integrates three rule-based rewards: a length penalty for duration consistency, an entropy regularization reward for decoding stability, and an LLM-annotated prosody alignment reward that explicitly supervises rhythm. In this prosody reward, an external reasoning LLM predicts multiple plausible pause structures via in-context learning, providing a human-preference-aligned supervisory signal for GRPO training. To assess universality, we further attach a flow-matching (FM) decoder on top of the GRPO-optimized AR backbone and observe consistent additional gains, indicating that our reinforcement optimization enhances the intrinsic AR policy. We further conduct a scalability analysis across data sizes and model scales, revealing that the proposed method consistently enhances prosodic stability, speaker similarity, and overall speech naturalness in single-codebook TTS LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、音声を離散コーデックトークンのシーケンスとして表現する自己回帰フレームワークを刺激し、テキストから音声への合成を変換している。
その中で、シングルコードブックのTS LLMは、セマンティックと音響の統合を共同でモデル化するコンパクトでストリーミング可能なアーキテクチャとして登場した。
しかし、その効率にもかかわらず、これらのモデルは不安定な韻律、話者のドリフト、劣化した自然性を示すことが多い。
これらの問題に対処するために,単一コードブックTS LLMのトークン生成ポリシーを直接最適化するマルチリワードグループ相対ポリシー最適化(GRPO)フレームワークを提案する。
我々の設計では、標準のインテリジェンスと話者類似性以外に、3つのルールベースの報酬(持続時間一貫性の長文ペナルティ、復号安定性のエントロピー正規化報酬、リズムを明示的に監督するLLMアノテーション付き韻律アライメント報酬)を統合している。
この韻律報酬において、外部推論LLMは、コンテキスト内学習を介して複数の可塑性停止構造を予測し、GRPOトレーニングのための人為的参照整合型監視信号を提供する。
汎用性を評価するため、GRPO最適化ARバックボーン上にフローマッチング(FM)デコーダを付加し、一貫した追加利得を観測し、本研究の強化最適化が本質的なARポリシーを強化することを示す。
さらに、データサイズとモデルスケールのスケーラビリティ解析を行い、提案手法は、単一コードブックTS LLMにおける韻律安定性、話者類似性、および全体的な音声の自然さを一貫して向上させることを示した。
関連論文リスト
- Generative Reasoning Recommendation via LLMs [48.45009951684554]
大規模言語モデル(LLM)は、生成的推論レコメンデーションモデル(GRRM)として機能する上で、根本的な課題に直面している。
本研究は,レコメンデーションタスクに対する統一的な理解・推論・予測方法を実現する,事前学習されたLLMを適用してGRRMを構築する方法について検討する。
本稿では,協調的セマンティックアライメント(Collaborative-Semantic Alignment),Reasoning Curriculum Activation(Reasoning Curriculum Activation),Sparse-Regularized Group Policy Optimization(Sparse-Regularized Group Policy Optimization)の3つのコンポーネントを統合するエンドツーエンドフレームワークであるGREAMを提案する。
論文 参考訳(メタデータ) (2025-10-23T17:59:31Z) - Leveraging Importance Sampling to Detach Alignment Modules from Large Language Models [48.15777554876988]
伝統的なアライメント手法では、しばしば大きな事前訓練されたモデルを再訓練する必要がある。
本稿では,アライメント処理を重要サンプリングの一種として形式化する新しいtextitResidual Alignment Model (textitRAM) を提案する。
本稿では,トークンレベルの復号化を反復的に行う再サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-05-26T08:53:02Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。