論文の概要: Noise-Robust Keyword Spotting through Self-supervised Pretraining
- arxiv url: http://arxiv.org/abs/2403.18560v1
- Date: Wed, 27 Mar 2024 13:42:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 16:48:33.199100
- Title: Noise-Robust Keyword Spotting through Self-supervised Pretraining
- Title(参考訳): 自己教師付き事前学習によるノイズロストキーワードスポッティング
- Authors: Jacob Mørk, Holger Severin Bovbjerg, Gergely Kiss, Zheng-Hua Tan,
- Abstract要約: 自己教師型学習は、クリーンな条件下での精度を高めることが示されている。
本稿では,KWSモデルの雑音条件下でのロバスト性を高めるためにSSLプリトレーニングをどのように利用できるかを検討する。
- 参考スコア(独自算出の注目度): 11.90089857382705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants are now widely available, and to activate them a keyword spotting (KWS) algorithm is used. Modern KWS systems are mainly trained using supervised learning methods and require a large amount of labelled data to achieve a good performance. Leveraging unlabelled data through self-supervised learning (SSL) has been shown to increase the accuracy in clean conditions. This paper explores how SSL pretraining such as Data2Vec can be used to enhance the robustness of KWS models in noisy conditions, which is under-explored. Models of three different sizes are pretrained using different pretraining approaches and then fine-tuned for KWS. These models are then tested and compared to models trained using two baseline supervised learning methods, one being standard training using clean data and the other one being multi-style training (MTR). The results show that pretraining and fine-tuning on clean data is superior to supervised learning on clean data across all testing conditions, and superior to supervised MTR for testing conditions of SNR above 5 dB. This indicates that pretraining alone can increase the model's robustness. Finally, it is found that using noisy data for pretraining models, especially with the Data2Vec-denoising approach, significantly enhances the robustness of KWS models in noisy conditions.
- Abstract(参考訳): 音声アシスタントが普及し、キーワードスポッティング(KWS)アルゴリズムが使用されるようになった。
現代のKWSシステムは、主に教師付き学習法を用いて訓練されており、優れた性能を達成するために大量のラベル付きデータを必要とする。
自己教師付き学習(SSL)による不正なデータの活用は、クリーンな条件下での精度を高めることが示されている。
本稿では,未探索の雑音条件下でのKWSモデルのロバスト性を高めるために,Data2VecなどのSSLプリトレーニングをどのように利用できるかを検討する。
3つの異なるサイズのモデルは、異なる事前訓練アプローチを用いて事前訓練され、その後、KWSのために微調整される。
これらのモデルをテストし、2つのベースライン教師付き学習手法を用いてトレーニングされたモデルと比較する。
その結果, クリーンデータの事前学習と微調整は, 全試験条件におけるクリーンデータの教師あり学習よりも優れ, 5dB以上のSNR試験条件における教師ありMSRよりも優れていることがわかった。
これは、事前訓練だけでモデルの堅牢性を高めることができることを示している。
最後に,特にData2Vec-denoisingアプローチでは,ノイズ条件下でのKWSモデルのロバスト性を著しく向上させる。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Conditional Online Learning for Keyword Spotting [0.0]
本研究では,新しいデータが利用可能になると,SGDを介してキーワードスポッターをデバイス上で更新する,シンプルだが効果的なオンライン連続学習手法について検討する。
実験により, オンライン学習の簡単な実装と比較して, トレーニング分布から引き出された小さなホールドアウトセットにおいて, 条件付きモデル更新により, 破滅的な忘れが軽減されることが示されている。
論文 参考訳(メタデータ) (2023-05-19T15:46:31Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Exploring Representation Learning for Small-Footprint Keyword Spotting [11.586285744728068]
KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T07:09:26Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - SSSE: Efficiently Erasing Samples from Trained Machine Learning Models [103.43466657962242]
サンプル消去のための効率的かつ効率的なアルゴリズムSSSEを提案する。
ある場合、SSSEは、許可されたデータだけで新しいモデルをスクラッチからトレーニングする最適な、しかし実用的でない金の標準と同様に、サンプルをほぼ消去することができる。
論文 参考訳(メタデータ) (2021-07-08T14:17:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。