論文の概要: To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement
- arxiv url: http://arxiv.org/abs/2304.03416v1
- Date: Thu, 6 Apr 2023 23:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:22:02.747718
- Title: To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement
- Title(参考訳): 目を覚ますか、起こさないか:連続的な改良によるキーワード偽アラームの低減
- Authors: Yashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching-Hua Lee,
Chouchang Yang, Yilin Shen, Hongxia Jin
- Abstract要約: 既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
- 参考スコア(独自算出の注目度): 58.96644066571205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword spotting systems continuously process audio streams to detect
keywords. One of the most challenging tasks in designing such systems is to
reduce False Alarm (FA) which happens when the system falsely registers a
keyword despite the keyword not being uttered. In this paper, we propose a
simple yet elegant solution to this problem that follows from the law of total
probability. We show that existing deep keyword spotting mechanisms can be
improved by Successive Refinement, where the system first classifies whether
the input audio is speech or not, followed by whether the input is keyword-like
or not, and finally classifies which keyword was uttered. We show across
multiple models with size ranging from 13K parameters to 2.41M parameters, the
successive refinement technique reduces FA by up to a factor of 8 on in-domain
held-out FA data, and up to a factor of 7 on out-of-domain (OOD) FA data.
Further, our proposed approach is "plug-and-play" and can be applied to any
deep keyword spotting model.
- Abstract(参考訳): キーワードスポッティングシステムは、音声ストリームを継続的に処理してキーワードを検出する。
このようなシステムを設計する上で最も難しいタスクの1つは、キーワードが発話されていないにもかかわらず、システムが誤ってキーワードを登録した場合に発生する偽アラーム(fa)を減らすことである。
本稿では,全確率法則に従う,単純かつエレガントな解法を提案する。
入力音声が音声であるか否かをまず分類し、その後に入力がキーワード的かどうかを分類し、最終的にどのキーワードが発話されたかを分類し、既存のディープキーワードスポッティング機構を改良することで、既存のディープキーワードスポッティング機構を改善することができることを示す。
13Kパラメータから2.41Mパラメータまで、複数のモデルにまたがって、連続的な改善手法により、ドメイン内保持FAデータでは最大8倍、ドメイン外FAデータでは最大7倍のFAが減少する。
さらに,提案手法は"plug-and-play"であり,どの深いキーワードスポッティングモデルにも適用可能である。
関連論文リスト
- A Glance is Enough: Extract Target Sentence By Looking at A keyword [26.77461726960814]
本稿では,キーワードのみを入力として多話者音声から対象文を抽出する可能性を検討する。
社会保障のアプリケーションでは、キーワードは"help"であり、助けを求める人が他の話者を無視しながら、何を話し合っているかを特定することが目的である。
本稿では,Transformer アーキテクチャを用いてキーワードと発話の両方を埋め込んで,適切な内容を選択するためのクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2023-10-09T02:28:19Z) - Open-vocabulary Keyword-spotting with Adaptive Instance Normalization [18.250276540068047]
本稿では,キーワード条件付き正規化パラメータを出力するためにテキストエンコーダを訓練するキーワードスポッティングの新しい手法であるAdaKWSを提案する。
近年のキーワードスポッティングやASRベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-09-13T13:49:42Z) - Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting [6.4423565043274795]
スプリットGSCという新しいベンチマーク設定で、数ショットのオープンセットキーワードスポッティングに取り組む。
オープンセットをよりよく検出し,Dummy Prototypeal Networks(D-ProtoNets)というシンプルで強力なアプローチを導入するために,メトリック学習に基づくエピソード有名なダミープロトタイプを提案する。
また,本手法を標準ベンチマーク,miniImageNet,D-ProtoNetsで検証し,FSOSRにおける最先端のオープンセット検出率を示す。
論文 参考訳(メタデータ) (2022-06-28T01:56:24Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Semantic-Preserving Adversarial Text Attacks [85.32186121859321]
深層モデルの脆弱性を調べるために, Bigram と Unigram を用いた適応的セマンティック保存最適化法 (BU-SPO) を提案する。
提案手法は,既存手法と比較して最小の単語数を変更することで,攻撃成功率とセマンティックス率を最大化する。
論文 参考訳(メタデータ) (2021-08-23T09:05:18Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - Few-Shot Keyword Spotting With Prototypical Networks [3.6930948691311016]
キーワードスポッティングは、AmazonのAlexaやGoogle Homeなど、多くの音声インターフェースで広く使用されている。
まず、この問題を数発のキーワードスポッティングとして定式化し、メートル法学習を用いてアプローチする。
そこで我々は,ネットワーク上の時間的および拡張的畳み込みを用いたプロトタイプ的な数ショットキーワードスポッティング問題に対する解を提案する。
論文 参考訳(メタデータ) (2020-07-25T20:17:56Z) - Exclusive Hierarchical Decoding for Deep Keyphrase Generation [63.357895318562214]
キーフレーズ生成(KG)は、文書の主要なアイデアをキーフレーズの集合にまとめることを目的としている。
この設定の以前の作業では、キーフレーズを生成するためのシーケンシャルなデコードプロセスが使用されている。
本稿では,階層的復号化プロセスとソフトかハードかのいずれかを含む排他的階層的復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T02:58:00Z) - Techniques for Vocabulary Expansion in Hybrid Speech Recognition Systems [54.49880724137688]
語彙外単語(OOV)の問題は、音声認識システムにおいて典型的である。
OOVをカバーするための一般的なアプローチの1つは、単語ではなくサブワード単位を使用することである。
本稿では,グラフ構築法と探索法の両方のレベルで,この解の既存手法について検討する。
論文 参考訳(メタデータ) (2020-03-19T21:24:45Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。