論文の概要: Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
- arxiv url: http://arxiv.org/abs/2310.04982v1
- Date: Sun, 8 Oct 2023 03:08:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:56:32.183200
- Title: Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset
- Title(参考訳): 低リソース・カスタマイズデータセットを用いた深層学習テキスト音声モデルの伝達学習の比較分析
- Authors: Ze Liu
- Abstract要約: この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
- 参考スコア(独自算出の注目度): 10.119929769316565
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-Speech (TTS) synthesis using deep learning relies on voice quality.
Modern TTS models are advanced, but they need large amount of data. Given the
growing computational complexity of these models and the scarcity of large,
high-quality datasets, this research focuses on transfer learning, especially
on few-shot, low-resource, and customized datasets. In this research,
"low-resource" specifically refers to situations where there are limited
amounts of training data, such as a small number of audio recordings and
corresponding transcriptions for a particular language or dialect. This thesis,
is rooted in the pressing need to find TTS models that require less training
time, fewer data samples, yet yield high-quality voice output. The research
evaluates TTS state-of-the-art model transfer learning capabilities through a
thorough technical analysis. It then conducts a hands-on experimental analysis
to compare models' performance in a constrained dataset. This study
investigates the efficacy of modern TTS systems with transfer learning on
specialized datasets and a model that balances training efficiency and
synthesis quality. Initial hypotheses suggest that transfer learning could
significantly improve TTS models' performance on compact datasets, and an
optimal model may exist for such unique conditions. This thesis predicts a rise
in transfer learning in TTS as data scarcity increases. In the future, custom
TTS applications will favour models optimized for specific datasets over
generic, data-intensive ones.
- Abstract(参考訳): 深層学習を用いたテキスト音声合成は音声品質に依存している。
現代のTSモデルは進歩しているが、大量のデータが必要である。
これらのモデルの計算複雑性の増大と、大規模で高品質なデータセットの不足を考えると、この研究はトランスファーラーニング、特に少数ショット、低リソース、カスタマイズされたデータセットに焦点を当てている。
本研究では,特定の言語や方言に対して,少数の音声録音や対応する書き起こしなど,限られた量の訓練データが存在する状況について,特に「低リソース」と呼ぶ。
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
本研究は,ttsモデル伝達学習能力を徹底的な技術分析によって評価する。
次に、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオン実験分析を行う。
本研究では,トランスファー学習を専門データセットに適用した最新のTSシステムの有効性と,学習効率と合成品質のバランスをとるモデルについて検討した。
最初の仮説は、転送学習はコンパクトデータセット上でのTSモデルの性能を著しく改善し、そのようなユニークな条件に対して最適なモデルが存在することを示唆している。
この論文は、データ不足が増加するにつれて、TSにおける転送学習の増加を予測する。
将来的には、汎用的なデータ集約型アプリケーションよりも、特定のデータセットに最適化されたモデルを好むだろう。
関連論文リスト
- EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight
Text-to-Speech [5.373107723631416]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - Impact of Dataset on Acoustic Models for Automatic Speech Recognition [0.0]
音声認識において、GMM-HMMは音響モデリングに広く用いられてきた。
GMMモデルは、ハイブリッドディープニューラルネットワークモデルのトレーニングデータのアライメントを作成するために広く使用されている。
本研究の目的は,データセットサイズの変化が各種GMM-HMM音響モデルの性能に与える影響を検討することである。
論文 参考訳(メタデータ) (2022-03-25T11:41:49Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z) - How much pretraining data do language models need to learn syntax? [12.668478784932878]
トランスフォーマーに基づく事前訓練型言語モデルは、多くのよく知られたNLUベンチマークにおいて優れた結果を得る。
本稿では,RoBERTaを用いたモデル知識に対する事前学習データサイズの影響について検討する。
論文 参考訳(メタデータ) (2021-09-07T15:51:39Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。