論文の概要: Adversarial training of Keyword Spotting to Minimize TTS Data Overfitting
- arxiv url: http://arxiv.org/abs/2408.10463v1
- Date: Tue, 20 Aug 2024 00:16:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 17:33:21.583879
- Title: Adversarial training of Keyword Spotting to Minimize TTS Data Overfitting
- Title(参考訳): TTSデータオーバーフィッティング最小化のためのキーワードスポッティングの逆トレーニング
- Authors: Hyun Jin Park, Dhruuv Agarwal, Neng Chen, Rentao Sun, Kurt Partridge, Justin Chen, Harry Zhang, Pai Zhu, Jacob Bartel, Kyle Kastner, Gary Wang, Andrew Rosenberg, Quan Wang,
- Abstract要約: キーワードスポッティング(KWS)問題では,多様な個体群間で高い精度を達成するために,大量の実声訓練データが必要となる。
我々は,大量のTSデータに基づいてトレーニングを行った場合,KWSモデルがTS特有の特徴を学習するのを防ぐために,敵対的トレーニング手法を適用することを提案する。
実験により, 実音声データに対するKWSモデルの精度は, 元のKWS損失に加えて, 対向損失を用いた場合, 最大12%向上できることが示された。
- 参考スコア(独自算出の注目度): 13.45344843458971
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The keyword spotting (KWS) problem requires large amounts of real speech training data to achieve high accuracy across diverse populations. Utilizing large amounts of text-to-speech (TTS) synthesized data can reduce the cost and time associated with KWS development. However, TTS data may contain artifacts not present in real speech, which the KWS model can exploit (overfit), leading to degraded accuracy on real speech. To address this issue, we propose applying an adversarial training method to prevent the KWS model from learning TTS-specific features when trained on large amounts of TTS data. Experimental results demonstrate that KWS model accuracy on real speech data can be improved by up to 12% when adversarial loss is used in addition to the original KWS loss. Surprisingly, we also observed that the adversarial setup improves accuracy by up to 8%, even when trained solely on TTS and real negative speech data, without any real positive examples.
- Abstract(参考訳): キーワードスポッティング(KWS)問題では,多様な話者間で高い精度を達成するために,大量の実声訓練データを必要とする。
大量のTTS(text-to-speech)合成データを利用することで、KWS開発に伴うコストと時間を削減できる。
しかし、TSデータには、実際の音声には存在しないアーティファクトが含まれており、KWSモデルは、実際の音声に対して劣化した精度をもたらす(過度な)ことができる。
この問題に対処するために,大量のTSデータに基づいてトレーニングを行った場合,KWSモデルがTS特有の特徴を学習するのを防ぐために,逆トレーニング手法を適用することを提案する。
実験により, 実音声データに対するKWSモデルの精度は, 元のKWS損失に加えて, 対向損失を用いた場合, 最大12%向上できることが示された。
また, TTS と実陰性音声データのみを訓練しても, 正の実例を伴わずに, 対向的設定により精度が最大8%向上することを示した。
関連論文リスト
- SpoofCeleb: Speech Deepfake Detection and SASV In The Wild [76.71096751337888]
SpoofCelebは、音声ディープフェイク検出(SDD)とスポフィングロバスト自動話者検証(SASV)のために設計されたデータセットである。
我々は,テキスト・トゥ・スペーチ(TTS)システムによって生成された実世界の状況からのソースデータとスプーフィング攻撃を利用して,同じ実世界のデータに基づいて訓練した。
SpoofCelebは、1,251人のユニークな話者による250万以上の発話で構成され、自然界の状況下で収集されている。
論文 参考訳(メタデータ) (2024-09-18T23:17:02Z) - Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Utilizing TTS Synthesized Data for Efficient Development of Keyword Spotting Model [13.45344843458971]
キーワードスポッティングモデルは、正確なトレーニングデータを大量に必要とします。
TTSモデルは大量の自然音データを生成することができ、KWSモデル開発におけるコストと時間を削減するのに役立つ。
実データ使用の最小化とTTS出力の多様性の最大化に焦点をあてて、TTSデータと実際の人間の音声データを混在させる様々な戦略について検討する。
論文 参考訳(メタデータ) (2024-07-26T17:24:50Z) - Can We Achieve High-quality Direct Speech-to-Speech Translation without Parallel Speech Data? [49.42189569058647]
2パス直接音声音声変換(S2ST)モデルは、タスクを音声音声翻訳(S2TT)とテキスト音声翻訳(TTS)に分解する
本稿では,事前学習した任意のS2TTおよびTSモデルを直接S2STモデルにシームレスに統合できるComSpeechという複合S2STモデルを提案する。
また,S2TTとTSデータのみを利用した新しいトレーニング手法ComSpeech-ZSを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:17:12Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - Speech Augmentation Based Unsupervised Learning for Keyword Spotting [29.87252331166527]
我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。
また,KWSモデルのロバスト性を改善するための教師なし学習手法も提案した。
我々の実験では、拡張に基づく教師なし学習により、我々のKWSモデルは、他の教師なし手法よりも優れた性能を達成する。
論文 参考訳(メタデータ) (2022-05-28T04:11:31Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - A study on the efficacy of model pre-training in developing neural
text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。
トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:09:28Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Learning Speaker Embedding from Text-to-Speech [59.80309164404974]
我々は,エンドツーエンドのTacotron 2 TTSと話者埋め込みネットワークを,自己指導型で共同で訓練した。
本研究は,手書き文字とASR書き起こし文字のトレーニングについて検討した。
教師なしTS埋め込みは、LibriTTSデータセットのi-vectorに関して、EERを2.06%改善した。
論文 参考訳(メタデータ) (2020-10-21T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。