論文の概要: Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model
- arxiv url: http://arxiv.org/abs/2407.18879v1
- Date: Fri, 26 Jul 2024 17:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 12:49:41.585713
- Title: Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model
- Title(参考訳): TTS合成データを用いたキーワードスポッティングモデルの効率的な開発
- Authors: Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang,
- Abstract要約: キーワードスポッティングモデルは、正確なトレーニングデータを大量に必要とします。
TTSモデルは大量の自然音データを生成することができ、KWSモデル開発におけるコストと時間を削減するのに役立つ。
実データ使用の最小化とTTS出力の多様性の最大化に焦点をあてて、TTSデータと実際の人間の音声データを混在させる様々な戦略について検討する。
- 参考スコア(独自算出の注目度): 13.45344843458971
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper explores the use of TTS synthesized training data for KWS (keyword spotting) task while minimizing development cost and time. Keyword spotting models require a huge amount of training data to be accurate, and obtaining such training data can be costly. In the current state of the art, TTS models can generate large amounts of natural-sounding data, which can help reducing cost and time for KWS model development. Still, TTS generated data can be lacking diversity compared to real data. To pursue maximizing KWS model accuracy under the constraint of limited resources and current TTS capability, we explored various strategies to mix TTS data and real human speech data, with a focus on minimizing real data use and maximizing diversity of TTS output. Our experimental results indicate that relatively small amounts of real audio data with speaker diversity (100 speakers, 2k utterances) and large amounts of TTS synthesized data can achieve reasonably high accuracy (within 3x error rate of baseline), compared to the baseline (trained with 3.8M real positive utterances).
- Abstract(参考訳): 本稿では、開発コストと時間を最小限に抑えつつ、KWSタスクのためのTTS合成トレーニングデータの使用について検討する。
キーワードスポッティングモデルは、高精度なトレーニングデータを必要とするため、そのようなトレーニングデータを取得するのにコストがかかる。
現在の最先端では、TSモデルは大量の自然音データを生成することができるため、KWSモデルの開発にかかるコストと時間を削減できる。
それでも、TSが生成したデータは、実際のデータと比べて多様性に欠ける可能性がある。
限られた資源と現在のTS能力の制約下でのKWSモデルの精度の最大化を追求するため、実データ使用の最小化とTTS出力の多様性の最大化に焦点をあてて、TSデータと実際の人間の音声データを混在させる様々な戦略を検討した。
実験結果から,話者の多様性が比較的少ない実音声データ(100話者,2k発話)と多量のTTS合成データ(ベースラインの3倍誤差率)は,ベースライン(3.8M実肯定発話)と比較して合理的に高い精度が得られることが示された。
関連論文リスト
- Adversarial training of Keyword Spotting to Minimize TTS Data Overfitting [13.45344843458971]
キーワードスポッティング(KWS)問題では,多様な個体群間で高い精度を達成するために,大量の実声訓練データが必要となる。
我々は,大量のTSデータに基づいてトレーニングを行った場合,KWSモデルがTS特有の特徴を学習するのを防ぐために,敵対的トレーニング手法を適用することを提案する。
実験により, 実音声データに対するKWSモデルの精度は, 元のKWS損失に加えて, 対向損失を用いた場合, 最大12%向上できることが示された。
論文 参考訳(メタデータ) (2024-08-20T00:16:12Z) - Towards Effective and Efficient Continual Pre-training of Large Language Models [163.34610964970258]
CPT(Continuous pre-training)は、特定のドメインやタスクに言語モデルを適用する上で重要なアプローチである。
本稿では,Llama-3 (8B) の継続事前訓練に関する技術的報告を報告する。
バックボーンモデルの中国語能力と科学的推論能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-26T13:55:21Z) - Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Comparative Analysis of Transfer Learning in Deep Learning
Text-to-Speech Models on a Few-Shot, Low-Resource, Customized Dataset [10.119929769316565]
この論文は、トレーニング時間が少なく、データサンプルが少なく、高品質な音声出力が得られるTSモデルを見つける必要があることの根底にある。
この研究は、徹底的な技術分析を通じて、TTSの最先端のモデル伝達学習能力を評価する。
その後、制約付きデータセットにおけるモデルのパフォーマンスを比較するために、ハンズオンの実験分析を行う。
論文 参考訳(メタデータ) (2023-10-08T03:08:25Z) - DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and
Training Efficiency via Efficient Data Sampling and Routing [57.86954315102865]
DeepSpeed Data Efficiencyは、データの利用性を向上し、トレーニング効率を向上し、モデル品質を改善するフレームワークである。
GPT-3 1.3B言語モデルの事前トレーニングでは、全データとコストのベースラインに比べて、モデル品質の95%を維持しながら、データ/時間/コストの12.5倍の削減を実現しています。
GPT-3 1.3B と BERT-large の事前トレーニングでは、データ/時間/コストの最大2倍のコストで同じモデル品質を達成することができ、同じデータ/時間/コストでより良いモデル品質を達成することができます。
論文 参考訳(メタデータ) (2022-12-07T12:27:28Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - Improving Neural Machine Translation by Denoising Training [95.96569884410137]
本稿では,ニューラルネットワーク翻訳のためのトレーニングDoTの簡易かつ効果的な事前学習戦略を提案する。
モデルパラメータを、初期段階のソースおよびターゲットサイドのDenoisingタスクで更新し、正常にモデルをチューニングします。
実験によると、DoTは12のバイリンガルと16の多言語方向にわたるニューラルマシン翻訳性能を一貫して改善している。
論文 参考訳(メタデータ) (2022-01-19T00:11:38Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - On the Interplay Between Sparsity, Naturalness, Intelligibility, and
Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。
以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-10-04T02:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。