論文の概要: Few-Shot Keyword Spotting With Prototypical Networks
- arxiv url: http://arxiv.org/abs/2007.14463v1
- Date: Sat, 25 Jul 2020 20:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 01:30:24.982303
- Title: Few-Shot Keyword Spotting With Prototypical Networks
- Title(参考訳): プロトタイプネットワークを用いたFew-Shotキーワードスポッティング
- Authors: Archit Parnami, Minwoo Lee
- Abstract要約: キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
- 参考スコア(独自算出の注目度): 3.6930948691311016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing a particular command or a keyword, keyword spotting has been
widely used in many voice interfaces such as Amazon's Alexa and Google Home. In
order to recognize a set of keywords, most of the recent deep learning based
approaches use a neural network trained with a large number of samples to
identify certain pre-defined keywords. This restricts the system from
recognizing new, user-defined keywords. Therefore, we first formulate this
problem as a few-shot keyword spotting and approach it using metric learning.
To enable this research, we also synthesize and publish a Few-shot Google
Speech Commands dataset. We then propose a solution to the few-shot keyword
spotting problem using temporal and dilated convolutions on prototypical
networks. Our comparative experimental results demonstrate keyword spotting of
new keywords using just a small number of samples.
- Abstract(参考訳): 特定のコマンドやキーワードを認識するキーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
キーワードの集合を認識するために、最近のディープラーニングベースのアプローチのほとんどは、多数のサンプルでトレーニングされたニューラルネットワークを使用して、事前に定義されたキーワードを識別する。
これにより、新しいユーザ定義キーワードの認識が制限される。
そこで、まずこの問題を数発のキーワードスポッティングとして定式化し、計量学習を用いてアプローチする。
この研究を可能にするために、Few-shot Google Speech Commandsデータセットを合成および公開する。
次に,プロトタイプネットワーク上の時間的および拡張的畳み込みを用いた数ショットキーワードスポッティング問題の解を提案する。
比較実験により,少数のサンプルを用いて新しいキーワードのキーワードスポッティングを示す。
関連論文リスト
- Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Towards Open Vocabulary Learning: A Survey [146.90188069113213]
ディープニューラルネットワークは,セグメンテーションやトラッキング,検出といった,さまざまなコアタスクにおいて,目覚ましい進歩を遂げている。
近年、視覚言語事前学習の急速な進歩により、オープンな語彙設定が提案されている。
本稿では,その分野における最近の発展を要約し分析し,オープンな語彙学習の徹底的なレビューを行う。
論文 参考訳(メタデータ) (2023-06-28T02:33:06Z) - To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting [6.4423565043274795]
スプリットGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
オープンセットをよりよく検出し,Dummy Prototypeal Networks(D-ProtoNets)というシンプルで強力なアプローチを導入するために,メトリック学習に基づくエピソード有名なダミープロトタイプを提案する。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
論文 参考訳(メタデータ) (2022-06-28T01:56:24Z) - On the Efficiency of Integrating Self-supervised Learning and
Meta-learning for User-defined Few-shot Keyword Spotting [51.41426141283203]
ユーザ定義キーワードスポッティングは、ユーザが定義する新しい音声用語を検出するタスクである。
これまでの研究は、自己教師付き学習モデルを取り入れたり、メタ学習アルゴリズムを適用しようとするものだった。
この結果から,HuBERTとMatching Networkを組み合わせることで,最適な結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-04-01T10:59:39Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Deep Keyphrase Completion [59.0413813332449]
Keyphraseは、非常にコンパクトで簡潔で、意味に満ちた文書内容の正確な情報を提供し、談話理解、組織化、テキスト検索に広く利用されている。
本論文では,文書内容と既知のキーフレーズの数が極めて限られているため,テキストキーフレーズの完全化(KPC)を提案し,文書中のキーフレーズをより多く生成する(科学出版など)。
深層学習フレームワークを通じて、既知のキーフレーズとともに文書内容の深い意味的意味を捉えようとすることから、textitdeep keyphrase completion (DKPC) と命名する。
論文 参考訳(メタデータ) (2021-10-29T07:15:35Z) - Teaching keyword spotters to spot new keywords with limited examples [6.251896411370577]
多数のキーワードを認識するタスクに基づいて事前学習した音声埋め込みモデルであるKeySEMを提案する。
KeySEMは、デプロイ後の学習とカスタマイズの容易さが望ましいオンデバイス環境に適している。
論文 参考訳(メタデータ) (2021-06-04T12:43:36Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。