論文の概要: Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech
- arxiv url: http://arxiv.org/abs/2510.05799v1
- Date: Tue, 07 Oct 2025 11:18:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.223027
- Title: Data-efficient Targeted Token-level Preference Optimization for LLM-based Text-to-Speech
- Title(参考訳): LLMに基づくテキスト音声合成のためのデータ効率の高いトークンレベルの優先度最適化
- Authors: Rikuto Kotoge, Yuichi Sasaki,
- Abstract要約: TKTOはペアデータの必要性を排除し、よりデータ効率のよいトレーニングパラダイムを可能にします。
TKTOは難解な日本のTS精度を39%改善し、CERを54%削減する。
- 参考スコア(独自算出の注目度): 0.6844618776091757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning text-to-speech (TTS) system outputs with human feedback through preference optimization has been shown to effectively improve the robustness and naturalness of language model-based TTS models. Current approaches primarily require paired desirable and undesirable samples at the utterance level. However, such pairs are often limited in TTS output data, and utterance-level formulation prevents fine-grained token-level optimization needed for accurate pronunciation alignment. In this study, we propose TKTO that eliminates the need for paired data, enabling a more data-efficient training paradigm, and directly targets token-level units, automatically providing fine-grained alignment signals without token-level annotations. TKTO improves the challenging Japanese TTS accuracy by 39% and reduces CER by 54%, automatically assigning 12.8 times stronger reward to targeted tokens.
- Abstract(参考訳): 言語モデルに基づくTTSモデルの頑健さと自然さを効果的に改善するために、好みの最適化を通じて人間のフィードバックを伴ってTTS(text-to-speech)システムの出力を調整する方法が示されている。
現在のアプローチでは、主に発話レベルで望ましいサンプルと望ましくないサンプルのペアを必要とする。
しかし、これらのペアはしばしばTS出力データに制限され、発話レベルの定式化は正確な発音アライメントに必要なきめ細かいトークンレベルの最適化を妨げている。
本研究では、ペアデータの必要性を排除し、よりデータ効率のよいトレーニングパラダイムを実現し、トークンレベルのユニットを直接ターゲットとし、トークンレベルのアノテーションを使わずに、自動的に微粒なアライメント信号を提供するTKTOを提案する。
TKTOは難解な日本のTS精度を39%改善し、CERを54%削減し、ターゲットトークンの12.8倍の報酬を自動的に割り当てる。
関連論文リスト
- Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - No Verifiable Reward for Prosody: Toward Preference-Guided Prosody Learning in TTS [1.9492333719038202]
Group Relative Policy Optimization (GRPO) を用いたニューラルテキスト音声(TTS)の最近の研究動向
テキストプロソディに対する検証可能な報酬がないため、GRPOは転写指向信号(CER/NLL)を訓練し、誤り率を下げるが、プロソディを単調で不自然な音声に分解する。
本手法では,1ラウンドあたり数百の人間ラベルの選好ペアのみを使用するテキスト開始直接選好最適化(DPO)方式でこの問題に対処する。
論文 参考訳(メタデータ) (2025-09-23T01:51:38Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Maximizing Data Efficiency for Cross-Lingual TTS Adaptation by
Self-Supervised Representation Mixing and Embedding Initialization [57.38123229553157]
本稿では,テキスト音声合成システムにおける言語適応のための効果的な伝達学習フレームワークを提案する。
ラベル付きおよびラベルなしの最小データを用いて言語適応を実現することに注力する。
実験結果から,本フレームワークは,ラベル付きデータの4つの発声とラベル付きデータの15分で,未知の言語で理解不能な音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2024-01-23T21:55:34Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - Unsupervised Data Selection for TTS: Using Arabic Broadcast News as a
Case Study [44.07589545984369]
本稿では、自動データ選択と事前学習/微調整戦略を含む、TS構築のための完全に教師なしの手法を提案する。
我々は,データの選択を慎重に行うことで,TSシステムの効率が向上することを示す。
評価の結果,CERは3.9%,CERは1.3%であった。
論文 参考訳(メタデータ) (2023-01-22T10:41:58Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。