論文の概要: Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems
- arxiv url: http://arxiv.org/abs/2306.02161v1
- Date: Sat, 3 Jun 2023 17:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:46:09.162909
- Title: Few-Shot Open-Set Learning for On-Device Customization of KeyWord
Spotting Systems
- Title(参考訳): キーワードスポッティングシステムのオンデバイスカスタマイズのためのマイズショットオープンセット学習
- Authors: Manuele Rusci and Tinne Tuytelaars
- Abstract要約: 本稿では, 深層特徴エンコーダとプロトタイプベース分類器を組み合わせることで, オープンセットKWS分類のための数ショット学習手法について検討する。
Google Speech Commandデータセットの10クラスのユーザ定義キーワードを用いて、10ショットシナリオで最大76%の精度を報告した。
- 参考スコア(独自算出の注目度): 41.24728444810133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A personalized KeyWord Spotting (KWS) pipeline typically requires the
training of a Deep Learning model on a large set of user-defined speech
utterances, preventing fast customization directly applied on-device. To fill
this gap, this paper investigates few-shot learning methods for open-set KWS
classification by combining a deep feature encoder with a prototype-based
classifier. With user-defined keywords from 10 classes of the Google Speech
Command dataset, our study reports an accuracy of up to 76% in a 10-shot
scenario while the false acceptance rate of unknown data is kept to 5%. In the
analyzed settings, the usage of the triplet loss to train an encoder with
normalized output features performs better than the prototypical networks
jointly trained with a generator of dummy unknown-class prototypes. This design
is also more effective than encoders trained on a classification problem and
features fewer parameters than other iso-accuracy approaches.
- Abstract(参考訳): パーソナライズされたKeyWord Spotting(KWS)パイプラインは、通常、ユーザ定義された大量の発話に対してディープラーニングモデルのトレーニングを必要とする。
このギャップを埋めるために,深層特徴エンコーダとプロトタイプに基づく分類器を組み合わせることで,オープンセットkws分類のための少数ショット学習手法を検討する。
google speech commandデータセットの10のクラスからユーザ定義キーワードを使用して,未知データの誤受率を5%に抑えながら,10ショットシナリオにおいて最大76%の精度を報告した。
解析設定では、正規化された出力特徴を持つエンコーダを訓練するための三重項損失の使用は、ダミーな未知のプロトタイプのジェネレータと共同で訓練されたプロトタイプネットワークよりも優れている。
この設計は分類問題で訓練されたエンコーダよりも効果的であり、他のiso精度アプローチよりもパラメータが少ない。
関連論文リスト
- Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment [0.14999444543328289]
本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
計算効率が良く、訓練のためのパラメータが83.7%少なくなり、提案されたアプローチは様々な方言や言語に適応できるようになった。
論文 参考訳(メタデータ) (2024-06-09T13:42:51Z) - Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - Free-text Keystroke Authentication using Transformers: A Comparative
Study of Architectures and Loss Functions [1.0152838128195467]
キーストロークバイオメトリックスは、個人のタイピング行動におけるユニークなパターンを活用する、ユーザ識別と検証のための有望なアプローチである。
本稿では,キーストロークシーケンスから情報的特徴を抽出する自己注意型トランスフォーマーネットワークを提案する。
我々のモデルは、フリーテキストキーストローク認証における従来の最先端技術を上回る。
論文 参考訳(メタデータ) (2023-10-18T00:34:26Z) - Few-Shot Specific Emitter Identification via Deep Metric Ensemble
Learning [26.581059299453663]
本稿では,自動監視ブロードキャスト(ADS-B)信号を用いた航空機識別のための新しいFS-SEIを提案する。
特に,提案手法は特徴埋め込みと分類から成り立っている。
シミュレーションの結果,カテゴリごとのサンプル数が5以上であれば,提案手法の平均精度は98%以上であることがわかった。
論文 参考訳(メタデータ) (2022-07-14T01:09:22Z) - Prototypical Classifier for Robust Class-Imbalanced Learning [64.96088324684683]
埋め込みネットワークに付加的なパラメータを必要としないtextitPrototypealを提案する。
プロトタイプは、訓練セットがクラス不均衡であるにもかかわらず、すべてのクラスに対してバランスと同等の予測を生成する。
我々は, CIFAR-10LT, CIFAR-100LT, Webvision のデータセットを用いて, プロトタイプが芸術の状況と比較した場合, サブスタンスの改善が得られることを検証した。
論文 参考訳(メタデータ) (2021-10-22T01:55:01Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Discriminative Nearest Neighbor Few-Shot Intent Detection by
Transferring Natural Language Inference [150.07326223077405]
データ不足を緩和するためには、ほとんどショットラーニングが注目を集めている。
深部自己注意を伴う識別的近傍分類を提示する。
自然言語推論モデル(NLI)を変換することで識別能力を高めることを提案する。
論文 参考訳(メタデータ) (2020-10-25T00:39:32Z) - Uncertainty-aware Self-training for Text Classification with Few Labels [54.13279574908808]
本研究は,アノテーションのボトルネックを軽減するための半教師あり学習手法の1つとして,自己学習について研究する。
本稿では,基礎となるニューラルネットワークの不確実性推定を取り入れて,自己学習を改善する手法を提案する。
本手法では,クラス毎に20~30個のラベル付きサンプルをトレーニングに利用し,完全教師付き事前学習言語モデルの3%以内で検証を行う。
論文 参考訳(メタデータ) (2020-06-27T08:13:58Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。