論文の概要: Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
- arxiv url: http://arxiv.org/abs/2310.04982v1
- Date: Sun, 8 Oct 2023 03:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:56:32.183200
- Title: Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
- Title(参考訳): 低リソース・カスタマイズデータセットを用いた深層学習テキスト音声モデルの伝達学習の比較分析
- Authors: Ze Liu
- Abstract要約: この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
- 参考スコア(独自算出の注目度): 10.119929769316565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-Speech (TTS) synthesis using deep learning relies on voice quality.
Modern TTS models are advanced, but they need large amount of data. Given the
growing computational complexity of these models and the scarcity of large,
high-quality datasets, this research focuses on transfer learning, especially
on few-shot, low-resource, and customized datasets. In this research,
"low-resource" specifically refers to situations where there are limited
amounts of training data, such as a small number of audio recordings and
corresponding transcriptions for a particular language or dialect. This thesis,
is rooted in the pressing need to find TTS models that require less training
time, fewer data samples, yet yield high-quality voice output. The research
evaluates TTS state-of-the-art model transfer learning capabilities through a
thorough technical analysis. It then conducts a hands-on experimental analysis
to compare models' performance in a constrained dataset. This study
investigates the efficacy of modern TTS systems with transfer learning on
specialized datasets and a model that balances training efficiency and
synthesis quality. Initial hypotheses suggest that transfer learning could
significantly improve TTS models' performance on compact datasets, and an
optimal model may exist for such unique conditions. This thesis predicts a rise
in transfer learning in TTS as data scarcity increases. In the future, custom
TTS applications will favour models optimized for specific datasets over
generic, data-intensive ones.
- Abstract(参考訳): 深層学習を用いたテキスト音声合成は音声品質に依存している。
現代のTSモデルは進歩しているが、大量のデータが必要である。
これらのモデルの計算複雑性の増大と、大規模で高品質なデータセットの不足を考えると、この研究はトランスファーラーニング、特に少数ショット、低リソース、カスタマイズされたデータセットに焦点を当てている。
本研究では,特定の言語や方言に対して,少数の音声録音や対応する書き起こしなど,限られた量の訓練データが存在する状況について,特に「低リソース」と呼ぶ。
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
本研究は,ttsモデル伝達学習能力を徹底的な技術分析によって評価する。
次に、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオン実験分析を行う。
本研究では,トランスファー学習を専門データセットに適用した最新のTSシステムの有効性と,学習効率と合成品質のバランスをとるモデルについて検討した。
最初の仮説は、転送学習はコンパクトデータセット上でのTSモデルの性能を著しく改善し、そのようなユニークな条件に対して最適なモデルが存在することを示唆している。
この論文は、データ不足が増加するにつれて、TSにおける転送学習の増加を予測する。
将来的には、汎用的なデータ集約型アプリケーションよりも、特定のデータセットに最適化されたモデルを好むだろう。
関連論文リスト
- Unsupervised Data Validation Methods for Efficient Model Training [0.0]
自然言語処理(NLP)、テキスト音声処理(TTS)、音声テキスト処理(STT)、視覚言語モデル(VLM)は大規模なデータセットに大きく依存している。
本研究では,「品質データ」の定義,適切なデータ生成方法の開発,モデルトレーニングへのアクセシビリティ向上など,重要な分野について検討する。
論文 参考訳(メタデータ) (2024-10-10T13:00:53Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model [13.45344843458971]
キーワードスポッティングモデルは、正確なトレーニングデータを大量に必要とします。
TTSモデルは大量の自然音データを生成することができ、KWSモデル開発におけるコストと時間を削減するのに役立つ。
実データ使用の最小化とTTS出力の多様性の最大化に焦点をあてて、TTSデータと実際の人間の音声データを混在させる様々な戦略について検討する。
論文 参考訳(メタデータ) (2024-07-26T17:24:50Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Impact of Dataset on Acoustic Models for Automatic Speech Recognition [0.0]
音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されている。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能に与える影響を検討することである。
論文 参考訳(メタデータ) (2022-03-25T11:41:49Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。