論文の概要: Speech Augmentation Based Unsupervised Learning for Keyword Spotting
- arxiv url: http://arxiv.org/abs/2205.14329v1
- Date: Sat, 28 May 2022 04:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 22:30:38.815682
- Title: Speech Augmentation Based Unsupervised Learning for Keyword Spotting
- Title(参考訳): 音声強化に基づくキーワードスポッティングのための教師なし学習
- Authors: Jian Luo, Jianzong Wang, Ning Cheng, Haobin Tang, Jing Xiao
- Abstract要約: 我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。
また,KWSモデルのロバスト性を改善するための教師なし学習手法も提案した。
我々の実験では、拡張に基づく教師なし学習により、我々のKWSモデルは、他の教師なし手法よりも優れた性能を達成する。
- 参考スコア(独自算出の注目度): 29.87252331166527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigated a speech augmentation based unsupervised
learning approach for keyword spotting (KWS) task. KWS is a useful speech
application, yet also heavily depends on the labeled data. We designed a
CNN-Attention architecture to conduct the KWS task. CNN layers focus on the
local acoustic features, and attention layers model the long-time dependency.
To improve the robustness of KWS model, we also proposed an unsupervised
learning method. The unsupervised loss is based on the similarity between the
original and augmented speech features, as well as the audio reconstructing
information. Two speech augmentation methods are explored in the unsupervised
learning: speed and intensity. The experiments on Google Speech Commands V2
Dataset demonstrated that our CNN-Attention model has competitive results.
Moreover, the augmentation based unsupervised learning could further improve
the classification accuracy of KWS task. In our experiments, with augmentation
based unsupervised learning, our KWS model achieves better performance than
other unsupervised methods, such as CPC, APC, and MPC.
- Abstract(参考訳): 本稿では,キーワードスポッティング(kws)タスクのための教師なし学習に基づく音声強調手法について検討した。
KWSは有用な音声アプリケーションであるが、ラベル付きデータにも大きく依存する。
我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。
CNN層は局所的な音響特性に焦点を合わせ、アテンション層は長期依存をモデル化する。
KWSモデルのロバスト性を改善するため,教師なし学習手法も提案した。
教師なしの損失は、オリジナルの音声特徴と拡張音声特徴の類似性と、音声再構成情報に基づいている。
教師なし学習では2つの音声強調法が検討されている: 速度と強度である。
Google Speech Commands V2 Datasetの実験では、我々のCNN-Attentionモデルが競合する結果を示している。
さらに,教師なし学習の強化により,kwsタスクの分類精度が向上した。
本実験では,強化型教師なし学習を用いて,cpc,apc,mpcなどの教師なし学習法よりも優れた性能を実現する。
関連論文リスト
- Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:40:37Z) - Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Exploring Representation Learning for Small-Footprint Keyword Spotting [11.586285744728068]
KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T07:09:26Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - On Higher Adversarial Susceptibility of Contrastive Self-Supervised
Learning [104.00264962878956]
コントラスト型自己教師学習(CSL)は,画像と映像の分類において,教師あり学習のパフォーマンスに適合するか上回っている。
2つの学習パラダイムによって誘導される表現の性質が似ているかどうかは、いまだに不明である。
我々は,CSL表現空間における単位超球面上のデータ表現の均一分布を,この現象の鍵となる要因として同定する。
CSLトレーニングでモデルロバスト性を改善するのにシンプルだが有効である戦略を考案する。
論文 参考訳(メタデータ) (2022-07-22T03:49:50Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。