論文の概要: When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
- arxiv url: http://arxiv.org/abs/2603.10904v1
- Date: Wed, 11 Mar 2026 15:48:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.038119
- Title: When Fine-Tuning Fails and when it Generalises: Role of Data Diversity and Mixed Training in LLM-based TTS
- Title(参考訳): ファインチューニングの失敗と一般化の時--LSMを用いたTSにおけるデータ多様性と混合トレーニングの役割-
- Authors: Anupam Purwar, Aditya Choudhary,
- Abstract要約: TTSの言語モデルバックボーンの微調整は、音声の一貫性と信号対雑音比SNRを改善することを約束している。
話者の忠実度は全ての評価話者に対して改善され、声の類似性が一貫した増加を示す。
音響エネルギーと知覚品質のばらつきが高い話者は、DNS-MOS音声の類似性とSNRの同時向上を実現する。
- 参考スコア(独自算出の注目度): 0.42970700836450487
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models are increasingly adopted as semantic backbones for neural text-to-speech systems. However, frozen LLM representations are insufficient for modeling speaker specific acoustic and perceptual characteristics. Our experiments involving fine tuning of the Language Model backbone of TTS show promise in improving the voice consistency and Signal to Noise ratio SNR in voice cloning task. Across multiple speakers LoRA finetuning consistently outperforms the non-finetuned base Qwen-0.5B model across three complementary dimensions of speech quality. First, perceptual quality improves significantly with DNS-MOS gains of up to 0.42 points for speakers whose training data exhibits sufficient acoustic variability. Second, speaker fidelity improves for all evaluated speakers with consistent increases in voice similarity indicating that LoRA effectively adapts speaker identity representations without degrading linguistic modeling. Third, signal level quality improves in most cases with signal to noise ratio increasing by as much as 34 percent. Crucially these improvements are strongly governed by the characteristics of the training data. Speakers with high variability in acoustic energy and perceptual quality achieve simultaneous gains in DNS-MOS voice similarity and SNR. Overall this work establishes that LoRA finetuning is not merely a parameter efficient optimization technique but an effective mechanism for better speaker level adaptation in compact LLM-based TTS systems. When supported by sufficiently diverse training data LoRA adapted Qwen-0.5B consistently surpasses its frozen base model in perceptual quality speaker similarity with low latency using GGUF model hosted in quantized form.
- Abstract(参考訳): 大規模言語モデルは、ニューラルテキスト音声システムのセマンティックバックボーンとしてますます採用されている。
しかし,LLM表現は話者固有の音響特性や知覚特性をモデル化するには不十分である。
TTSの言語モデルバックボーンの微調整を含む実験は,音声の整合性の向上と音声のクローニング作業における信号対雑音比SNRの向上を約束している。
複数の話者からなるLoRAファインタニングは、音声品質の3つの相補的な次元にわたって、非微細化ベースQwen-0.5Bモデルより一貫して優れている。
第一に、学習データが十分な音響変化を示す話者に対して、DNS-MOSが最大0.42ポイント向上するにつれて、知覚品質が大幅に向上する。
第2に、話者の忠実度は、言語モデリングを劣化させることなく、LoRAが話者の同一性表現を効果的に適応することを示す音声類似度が一貫して増加する全ての評価話者に対して改善される。
第3に、信号レベルの品質は、信号対雑音比が最大34%向上するほとんどのケースで改善される。
これらの改善は、トレーニングデータの特徴によって強く管理されている。
音響エネルギーと知覚品質のばらつきが高い話者は、DNS-MOS音声の類似性とSNRの同時向上を実現する。
全体として、この研究はLoRAファインタニングが単にパラメータ効率のよい最適化技術であるだけでなく、コンパクトLLMベースのTSシステムにおいて話者レベルの適応性を向上するための効果的なメカニズムであることを証明している。
十分に多様なトレーニングデータによってサポートされた場合、Qwen-0.5Bは、量子化形式でホストされたGGUFモデルを用いて、知覚品質の話者類似性において、その凍結ベースモデルを一貫して上回る。
関連論文リスト
- Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Residual Adapters for Few-Shot Text-to-Speech Speaker Adaptation [21.218195769245032]
本稿では,残差アダプタと呼ばれるトレーニング可能な軽量モジュールでバックボーンモデルを拡張したパラメータ効率の低い少数話者適応を提案する。
実験結果から,提案手法は完全微調整手法と比較して,競合自然性や話者類似性を実現できることが示された。
論文 参考訳(メタデータ) (2022-10-28T03:33:07Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Non-Autoregressive TTS with Explicit Duration Modelling for Low-Resource
Highly Expressive Speech [5.521191428642322]
本稿では、ターゲット話者から15分間の音声データを用いて、高い表現力を持つTTS音声を構築する方法を提案する。
現在の最先端アプローチと比較して,提案手法は音声の自然性に対して23.3%向上し,録音とのギャップを埋めることができた。
論文 参考訳(メタデータ) (2021-06-24T10:52:10Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。