論文の概要: Exploring Representation Learning for Small-Footprint Keyword Spotting
- arxiv url: http://arxiv.org/abs/2303.10912v1
- Date: Mon, 20 Mar 2023 07:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:33:13.335461
- Title: Exploring Representation Learning for Small-Footprint Keyword Spotting
- Title(参考訳): 小図形キーワードスポッティングのための表現学習の探索
- Authors: Fan Cui, Liyong Guo, Quandong Wang, Peng Gao, Yujun Wang
- Abstract要約: KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 11.586285744728068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate representation learning for low-resource
keyword spotting (KWS). The main challenges of KWS are limited labeled data and
limited available device resources. To address those challenges, we explore
representation learning for KWS by self-supervised contrastive learning and
self-training with pretrained model. First, local-global contrastive siamese
networks (LGCSiam) are designed to learn similar utterance-level
representations for similar audio samplers by proposed local-global contrastive
loss without requiring ground-truth. Second, a self-supervised pretrained
Wav2Vec 2.0 model is applied as a constraint module (WVC) to force the KWS
model to learn frame-level acoustic representations. By the LGCSiam and WVC
modules, the proposed small-footprint KWS model can be pretrained with
unlabeled data. Experiments on speech commands dataset show that the
self-training WVC module and the self-supervised LGCSiam module significantly
improve accuracy, especially in the case of training on a small labeled
dataset.
- Abstract(参考訳): 本稿では,低リソースキーワードスポッティング(KWS)の表現学習について検討する。
KWSの主な課題は、ラベル付きデータと利用可能なデバイスリソースの制限である。
これらの課題に対処するために,自己教師付きコントラスト学習と事前学習モデルによるkws表現学習について検討する。
まず,ローカル・グローバル・コントラスト・シアーム・ネットワーク (lgcsiam) は,類似するオーディオ・サンプラーに対する類似の発話レベル表現を,局所的・グローバル・コントラストの損失により学習する。
次に,KWSモデルにフレームレベルの音響表現を学習させる制約モジュール(WVC)として,自己教師付きwav2Vec 2.0モデルを適用した。
LGCSiamおよびWVCモジュールにより、提案した小さなフットプリントKWSモデルはラベルのないデータで事前訓練することができる。
音声コマンドデータセットの実験では、特に小さなラベル付きデータセットのトレーニングの場合、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
関連論文リスト
- Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Noise-Robust Keyword Spotting through Self-supervised Pretraining [11.90089857382705]
自己教師型学習は、クリーンな条件下での精度を高めることが示されている。
本稿では,KWSモデルの雑音条件下でのロバスト性を高めるためにSSLプリトレーニングをどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2024-03-27T13:42:14Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Unsupervised Vision-and-Language Pre-training Without Parallel Images
and Captions [92.47566804182338]
画像キャプションコーパスを使わずに教師なし事前学習により、強力なV&L表現モデルを学習できるかどうかを検討する。
特に,テキストのみのコーパスと画像のみのコーパスで,マスク・アンド・予測の事前学習を行うことを提案する。
4つの英語のV&Lベンチマークで、アライメントされたデータで事前訓練されたモデルに近いこのような単純なアプローチの性能が得られた。
論文 参考訳(メタデータ) (2020-10-24T08:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。