論文の概要: Aligner-Guided Training Paradigm: Advancing Text-to-Speech Models with Aligner Guided Duration
- arxiv url: http://arxiv.org/abs/2412.08112v1
- Date: Wed, 11 Dec 2024 05:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:16.905348
- Title: Aligner-Guided Training Paradigm: Advancing Text-to-Speech Models with Aligner Guided Duration
- Title(参考訳): Aligner-Guided Training Paradigm: Aligner Guided Durationによるテキスト音声モデルの強化
- Authors: Haowei Lou, Helen Paik, Wen Hu, Lina Yao,
- Abstract要約: 本稿では,TASモデルの前にアライメント器をトレーニングすることにより,正確な時間ラベリングを優先する新しいAligner-Guided Training Paradigmを提案する。
実験の結果,単語誤り率を最大16%向上させることができ,音素・音調アライメントを著しく向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 13.713209707407712
- License:
- Abstract: Recent advancements in text-to-speech (TTS) systems, such as FastSpeech and StyleSpeech, have significantly improved speech generation quality. However, these models often rely on duration generated by external tools like the Montreal Forced Aligner, which can be time-consuming and lack flexibility. The importance of accurate duration is often underestimated, despite their crucial role in achieving natural prosody and intelligibility. To address these limitations, we propose a novel Aligner-Guided Training Paradigm that prioritizes accurate duration labelling by training an aligner before the TTS model. This approach reduces dependence on external tools and enhances alignment accuracy. We further explore the impact of different acoustic features, including Mel-Spectrograms, MFCCs, and latent features, on TTS model performance. Our experimental results show that aligner-guided duration labelling can achieve up to a 16\% improvement in word error rate and significantly enhance phoneme and tone alignment. These findings highlight the effectiveness of our approach in optimizing TTS systems for more natural and intelligible speech generation.
- Abstract(参考訳): 近年,FastSpeechやStyleSpeechのようなテキスト音声合成(TTS)システムの進歩により,音声生成の品質が大幅に向上した。
しかし、これらのモデルは、モントリオール強制アリグナーのような外部ツールによって生成される持続時間に依存していることが多い。
正確な持続時間の重要性は、自然の韻律と知性を達成する上で重要な役割を担っているにもかかわらず、過小評価されることが多い。
これらの制約に対処するために,TTSモデルの前にアライメント器をトレーニングすることにより,正確な持続時間ラベリングを優先する新しいAligner-Guided Training Paradigmを提案する。
このアプローチは外部ツールへの依存を減らし、アライメントの精度を高める。
さらに,Mel-Spectrogram,MFCC,潜在機能などの音響特性がTSモデル性能に与える影響について検討する。
実験の結果,単語誤り率を最大16倍に向上し,音素や音調のアライメントを大幅に向上させることができることがわかった。
これらの結果は,より自然で理解しやすい音声生成のためのTSシステムの最適化における,我々のアプローチの有効性を浮き彫りにしている。
関連論文リスト
- DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis [12.310318928818546]
DMOSpeechは, 蒸留拡散に基づくTSモデルであり, 教師モデルと比較して高速な推論と優れた性能を実現する。
我々の総合的な実験は、人間の広範囲な評価によって検証され、自然性、知性、話者の類似性を大幅に向上させながら、推測時間を桁違いに減らした。
本研究は,音声合成と人間の聴覚嗜好を協調する新たな枠組みを,直接的メートル法最適化により確立する。
論文 参考訳(メタデータ) (2024-10-14T21:17:58Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - DPI-TTS: Directional Patch Interaction for Fast-Converging and Style Temporal Modeling in Text-to-Speech [43.45691362372739]
テキスト・トゥ・音声(DPI-TTS)のための方向的パッチ・インタラクション法を提案する。
DPI-TTSは低周波数から高周波数のフレーム・バイ・フレームプログレッシブ・推論・アプローチを採用しており、音響特性とより密に一致している。
実験により,本手法はトレーニング速度を約2倍に向上し,ベースラインモデルよりも大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-09-18T09:36:55Z) - Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech [26.533600745910437]
本稿では,TSモデルの一般化能力を向上させるために,スパースアテンション(sparse attention)と呼ばれる変圧器の効率的なプルーニング法を提案する。
また,モデルがしきい値を自動的に学習することのできる,新しい微分可能なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-28T21:25:05Z) - Weakly-supervised forced alignment of disfluent speech using
phoneme-level modeling [10.283092375534311]
重み付き有限状態変換器を用いたアライメントグラフの構成法を提案する。
提案手法は, 強制アライメントのための音声不一致の動詞的書き起こしの必要性を軽減する。
TIMITテストセットとUCLASSデータセットの劣化バージョンについて評価したところ,大幅な改善が見られた。
論文 参考訳(メタデータ) (2023-05-30T09:57:36Z) - Parameter-Efficient Learning for Text-to-Speech Accent Adaptation [58.356667204518985]
本稿では、テキスト音声(TTS)のための低リソースアクセント適応を開発するためのパラメータ効率学習(PEL)を提案する。
冷凍前訓練TSモデルからの資源効率適応は、元のトレーニング可能なパラメータの1.2%から0.8%しか使用していない。
実験結果から,提案手法はパラメータ効率の高いデコーダの微調整により,自然度と競合できることがわかった。
論文 参考訳(メタデータ) (2023-05-18T22:02:59Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Any-speaker Adaptive Text-To-Speech Synthesis with Diffusion Models [65.28001444321465]
Grad-StyleSpeechは拡散モデルに基づく任意の話者適応型TSフレームワークである。
数秒の参照音声が与えられた場合、ターゲット話者の声と非常によく似た、非常に自然な音声を生成することができる。
英語のベンチマークでは、話者適応型TTSベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-17T07:17:24Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。