論文の概要: No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS
- arxiv url: http://arxiv.org/abs/2509.18531v1
- Date: Tue, 23 Sep 2025 01:51:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.641089
- Title: No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS
- Title(参考訳): プロソディの検証不能なリワード:TTSにおける優先指導型プロソディラーニングに向けて
- Authors: Seungyoun Shin, Dongha Ahn, Jiwoo Kim, Sungwook Jeon,
- Abstract要約: Group Relative Policy Optimization (GRPO) を用いたニューラルテキスト音声(TTS)の最近の研究動向
テキストプロソディに対する検証可能な報酬がないため、GRPOは転写指向信号(CER/NLL)を訓練し、誤り率を下げるが、プロソディを単調で不自然な音声に分解する。
本手法では,1ラウンドあたり数百の人間ラベルの選好ペアのみを使用するテキスト開始直接選好最適化(DPO)方式でこの問題に対処する。
- 参考スコア(独自算出の注目度): 1.9492333719038202
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work reports gains in neural text-to-speech (TTS) with Group Relative Policy Optimization (GRPO). However, in the absence of a verifiable reward for \textit{prosody}, GRPO trained on transcription-oriented signals (CER/NLL) lowers error rates yet collapses prosody into monotone, unnatural speech; adding speaker-similarity further destabilizes training and degrades CER. We address this with an \textit{iterative Direct Preference Optimization (DPO)} scheme that uses only a few hundred human-labeled preference pairs per round to directly optimize prosodic naturalness while regularizing to the current model. On \textbf{KoCC-TTS}, a curated dataset of authentic Korean call center interactions capturing task-oriented dialogues, our method attains the highest human preference (ELO) with competitive CER, outperforming GRPO and strong commercial baselines. These results suggest that when prosody cannot be rewarded automatically, \textit{human preference optimization} offers a practical and data-efficient path to natural and robust TTS. The demo page is available at \href{https://tts.ch.dev}
- Abstract(参考訳): 最近の研究報告では、グループ相対ポリシー最適化(GRPO)によるニューラルテキスト音声(TTS)の進歩が報告されている。
しかし、‘textit{prosody} に対する検証可能な報酬がないため、GRPO は転写指向信号 (CER/NLL) で訓練し、誤り率を下げるが、プロソディを単調で不自然な音声に分解し、話者類似性がさらにトレーニングを不安定にし、CERを劣化させる。
本手法では,現在モデルに正規化しつつ,韻律的自然性を直接最適化するために,100組の人間ラベル付き選好ペアのみを使用する。
タスク指向対話を捉えた韓国のコールセンターインタラクションのキュレートしたデータセットである \textbf{KoCC-TTS} において,本手法は競争力のあるCERと最高の人選好(ELO)を達成し,GRPO と強力な商業ベースラインを達成している。
これらの結果は,韻律が自動的に報われることができない場合,自然かつ堅牢なTSへの実践的でデータ効率のよい経路を提供することを示唆している。
デモページは \href{https://tts.ch.dev} で公開されている。
関連論文リスト
- Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback [40.01227095901647]
大規模言語モデル(LLM)は、優れたパフォーマンスを示すが、リトレーニングなしに素早く人間の好みに適応する柔軟性に欠ける。
本稿では,LLM出力と推論時の人間の嗜好を一致させるフレームワークであるテスト時間優先最適化(TPO)を紹介する。
本研究は,TPOをテスト時間優先最適化の実用的で軽量な代替手段として確立し,ハエのアライメントを実現している。
論文 参考訳(メタデータ) (2025-01-22T14:15:46Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。