論文の概要: TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch
- arxiv url: http://arxiv.org/abs/2412.08237v1
- Date: Wed, 11 Dec 2024 09:38:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:28.680340
- Title: TouchTTS: An Embarrassingly Simple TTS Framework that Everyone Can Touch
- Title(参考訳): TouchTTS:誰でもタッチできる、恥ずかしいほどシンプルなTTSフレームワーク
- Authors: Xingchen Song, Mengtao Xing, Changwei Ma, Shengqiang Li, Di Wu, Binbin Zhang, Fuping Pan, Dinghao Zhou, Yuekai Zhang, Shun Lei, Zhendong Peng, Zhiyong Wu,
- Abstract要約: 最近のLSMベースのTSは、通常、高品質なトレーニングデータを得るために複雑なデータ処理パイプラインを使用する。
本研究では、ノイズローバストなオーディオ・トークンーザ(S3Tokenizer)を利用して、シンプルで効率的なTSデータ処理パイプラインを設計する。
このパイプラインはデータ品質を維持しながら、データ取得コストを大幅に削減し、データの保持率50%以上を達成する。
- 参考スコア(独自算出の注目度): 18.661974399115007
- License:
- Abstract: It is well known that LLM-based systems are data-hungry. Recent LLM-based TTS works typically employ complex data processing pipelines to obtain high-quality training data. These sophisticated pipelines require excellent models at each stage (e.g., speech denoising, speech enhancement, speaker diarization, and punctuation models), which themselves demand high-quality training data and are rarely open-sourced. Even with state-of-the-art models, issues persist, such as incomplete background noise removal and misalignment between punctuation and actual speech pauses. Moreover, the stringent filtering strategies often retain only 10-30\% of the original data, significantly impeding data scaling efforts. In this work, we leverage a noise-robust audio tokenizer (S3Tokenizer) to design a simplified yet effective TTS data processing pipeline that maintains data quality while substantially reducing data acquisition costs, achieving a data retention rate of over 50\%. Beyond data scaling challenges, LLM-based TTS systems also incur higher deployment costs compared to conventional approaches. Current systems typically use LLMs solely for text-to-token generation, while requiring separate models (e.g., flow matching models) for token-to-waveform generation, which cannot be directly executed by LLM inference engines, further complicating deployment. To address these challenges, we eliminate redundant modules in both LLM and flow components, replacing the flow model backbone with an LLM architecture. Building upon this simplified flow backbone, we propose a unified architecture for both streaming and non-streaming inference, significantly reducing deployment costs. Finally, we explore the feasibility of unifying TTS and ASR tasks using the same data for training, thanks to the simplified pipeline and the S3Tokenizer that reduces the quality requirements for TTS training data.
- Abstract(参考訳): LLMベースのシステムがデータハングリーであることはよく知られている。
最近のLSMベースのTSは、通常、高品質なトレーニングデータを得るために複雑なデータ処理パイプラインを使用する。
これらの洗練されたパイプラインは、それぞれの段階で優れたモデル(例えば、音声認識、音声強調、話者ダイアリゼーション、句読点モデル)を必要とする。
最先端のモデルであっても、不完全なバックグラウンドノイズ除去や句読点と実際の音声停止の誤調整といった問題が続いている。
さらに、厳密なフィルタリング戦略は、元のデータの10~30%しか保持しないことが多く、データスケーリングの取り組みを著しく妨げている。
本研究では,データ取得コストを大幅に削減しつつ,データ保持率50%を超えるデータ保持率を実現しつつ,データ品質を維持する簡易かつ効率的なTSデータ処理パイプラインを設計するために,ノイズローバスオーディオトークン(S3Tokenizer)を利用する。
データスケーリングの課題以外にも、LLMベースのTSシステムは、従来のアプローチよりも高いデプロイメントコストを発生させる。
現在のシステムはテキスト・ツー・トークン生成のみにLLMを使用するのが一般的であるが、トークン・ツー・ウェーブフォーム生成には別のモデル(例えばフローマッチングモデル)が必要である。
これらの課題に対処するために、フローモデルバックボーンをLLMアーキテクチャに置き換え、LLMとフローコンポーネントの両方の冗長モジュールを除去する。
この単純化されたフローバックボーンに基づいて、ストリーミングと非ストリーミングの両方の推論のための統一アーキテクチャを提案し、デプロイメントコストを大幅に削減する。
最後に、TTSトレーニングデータの品質要件を低減した簡易パイプラインとS3Tokenizerのおかげで、トレーニングに同じデータを使用することで、TSタスクとASRタスクを統一する可能性について検討する。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper [3.717584661565119]
我々は,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,教師付きデータなしでゼロからトレーニングできることを実証した。
これにより、1つの段階で堅牢なASRモデルをトレーニングでき、大きなデータと計算予算を必要としない。
The proposed framework on 6 languages from CommonVoice and proposed multiple filters to filter out hallucinated PLs。
論文 参考訳(メタデータ) (2024-09-20T13:38:59Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Denoising LM: Pushing the Limits of Error Correction Models for Speech Recognition [21.516152600963775]
Denoising LM (DLM) は大量の合成データで訓練された$textitscaled$エラー補正モデルである。
DLMは、$textittest-clean$で1.5%のワードエラー率(WER)、$textittest-other$で3.3%のWERを達成する。
論文 参考訳(メタデータ) (2024-05-24T05:05:12Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - On the Relevance of Phoneme Duration Variability of Synthesized Training
Data for Automatic Speech Recognition [0.552480439325792]
合成データの時間構造とASRトレーニングとの関係に着目した。
本研究では, 合成データ品質の劣化が, 非自己回帰性TSの持続時間モデルにどの程度影響されているかを示す。
簡単なアルゴリズムを用いて,TTSシステムの音素持続時間分布を実時間に近づける。
論文 参考訳(メタデータ) (2023-10-12T08:45:21Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Task Residual for Tuning Vision-Language Models [69.22958802711017]
タスク残差調整(TaskRes)と呼ばれる視覚言語モデル(VLM)のための新しい効率的なチューニング手法を提案する。
TaskResは、トレーニング済みモデルの事前知識とターゲットタスクに関する新たな知識を明示的に分離する。
提案されたTaskResは単純だが有効であり、11のベンチマークデータセットで以前のメソッドよりも大幅に上回っている。
論文 参考訳(メタデータ) (2022-11-18T15:09:03Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。