論文の概要: Text Anchor Based Metric Learning for Small-footprint Keyword Spotting
- arxiv url: http://arxiv.org/abs/2108.05516v1
- Date: Thu, 12 Aug 2021 03:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-14 01:54:36.357395
- Title: Text Anchor Based Metric Learning for Small-footprint Keyword Spotting
- Title(参考訳): テキストアンカーを用いたスモールフットプリントキーワードスポッティングのためのメトリック学習
- Authors: Li Wang, Rongzhi Gu, Nuo Chen, Yuexian Zou
- Abstract要約: キーワードスポッティング(KWS)は、小さなフットプリントと高い精度のトレードオフを達成するために依然として困難である。
最近提案された計量学習手法により,KWSタスクのモデルの一般化性が向上した。
1D-CNNベースのKWSモデルは、モデルサイズの観点から、最先端技術(SOTA)を達成した。
- 参考スコア(独自算出の注目度): 34.62707791867928
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Keyword Spotting (KWS) remains challenging to achieve the trade-off between
small footprint and high accuracy. Recently proposed metric learning approaches
improved the generalizability of models for the KWS task, and 1D-CNN based KWS
models have achieved the state-of-the-arts (SOTA) in terms of model size.
However, for metric learning, due to data limitations, the speech anchor is
highly susceptible to the acoustic environment and speakers. Also, we note that
the 1D-CNN models have limited capability to capture long-term temporal
acoustic features. To address the above problems, we propose to utilize text
anchors to improve the stability of anchors. Furthermore, a new type of model
(LG-Net) is exquisitely designed to promote long-short term acoustic feature
modeling based on 1D-CNN and self-attention. Experiments are conducted on
Google Speech Commands Dataset version 1 (GSCDv1) and 2 (GSCDv2). The results
demonstrate that the proposed text anchor based metric learning method shows
consistent improvements over speech anchor on representative CNN-based models.
Moreover, our LG-Net model achieves SOTA accuracy of 97.67% and 96.79% on two
datasets, respectively. It is encouraged to see that our lighter LG-Net with
only 74k parameters obtains 96.82% KWS accuracy on the GSCDv1 and 95.77% KWS
accuracy on the GSCDv2.
- Abstract(参考訳): キーワードスポッティング(KWS)は、小さなフットプリントと高い精度のトレードオフを達成するために依然として困難である。
最近提案された計量学習手法により,KWSタスクのモデルの一般化性が向上し,1D-CNNに基づくKWSモデルは,モデルサイズの観点から最先端技術(SOTA)を達成した。
しかし、距離学習においては、データ制限のため、音声アンカーは音響環境や話者に非常に影響を受けやすい。
また,1d-cnnモデルは長時間の音響特徴を捉える能力に限界があることに注意した。
以上の問題を解決するために,テキストアンカーを用いてアンカーの安定性を向上させることを提案する。
さらに,1D-CNNと自己注意に基づく長期音響特徴モデリングを促進するために,LG-Netと呼ばれる新しいモデルを提案する。
Google Speech Commands Datasetバージョン1(GSCDv1)と2(GSCDv2)で実験が行われる。
その結果,提案手法は,代表的CNNモデル上での音声アンカーよりも一貫した改善を示した。
さらに,lg-netモデルは2つのデータセットで97.67%,96.79%のsoma精度を実現している。
74kパラメータの軽いLG-Netでは、GSCDv1では96.82%、GSCDv2では95.77%のKWS精度が得られる。
関連論文リスト
- Disentangled Training with Adversarial Examples For Robust Small-footprint Keyword Spotting [18.456711824241978]
KWSのロバスト性を改善するために,逆例を用いたデータソース対応不整合学習を提案する。
実験結果から,提案手法は偽拒絶率を40.31%,偽受け入れ率1%で改善することが示された。
我々の最高のパフォーマンスシステムは、Google Speech Commands V1データセットで9,8.06%の精度を達成する。
論文 参考訳(メタデータ) (2024-08-23T20:03:51Z) - Semantic Segmentation in Satellite Hyperspectral Imagery by Deep Learning [54.094272065609815]
本稿では1D-Justo-LiuNetという軽量な1D-CNNモデルを提案する。
1D-Justo-LiuNetは、全てのテストモデルの中で最小のモデルサイズ (4,563 パラメータ) を持つ最大精度 (0.93) を達成する。
論文 参考訳(メタデータ) (2023-10-24T21:57:59Z) - Exploring Representation Learning for Small-Footprint Keyword Spotting [11.586285744728068]
KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T07:09:26Z) - Prompt Tuning for Parameter-efficient Medical Image Segmentation [79.09285179181225]
2つの医用画像データセットのセマンティックセグメンテーションにパラメータ効率が良いが効果的な適応を実現するために,いくつかのコントリビューションを提案し,検討する。
我々はこのアーキテクチャを、オンライン生成プロトタイプへの割り当てに基づく専用密集型セルフスーパービジョンスキームで事前訓練する。
得られたニューラルネットワークモデルにより、完全に微調整されたモデルとパラメータに適応したモデルとのギャップを緩和できることを実証する。
論文 参考訳(メタデータ) (2022-11-16T21:55:05Z) - Improving Label-Deficient Keyword Spotting Through Self-Supervised
Pretraining [18.19207291891767]
キーワードスポッティング(KWS)モデルは、音声アシスタントなど、様々なシステムに統合されつつある。
KWSモデルは一般的に大量のラベル付きデータに依存しており、それらのアプリケーションはそのようなデータが利用可能な状況に限られる。
自己教師付き学習(SSL)メソッドは、容易に利用可能な未実装データを活用することで、そのような依存を軽減することができる。
論文 参考訳(メタデータ) (2022-10-04T15:56:27Z) - Optimizing Anchor-based Detectors for Autonomous Driving Scenes [22.946814647030667]
本稿では、自律走行シーンにおける一般的なアンカーベース検出器のモデル改善と推定時間最適化について要約する。
高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出器に適応するための一連のフレームワークの改善について検討した。
論文 参考訳(メタデータ) (2022-08-11T22:44:59Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy [6.2698513174194215]
本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-02-03T23:04:38Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。