論文の概要: Accurate Detection of Wake Word Start and End Using a CNN
- arxiv url: http://arxiv.org/abs/2008.03790v1
- Date: Sun, 9 Aug 2020 19:02:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:57:39.785120
- Title: Accurate Detection of Wake Word Start and End Using a CNN
- Title(参考訳): CNNを用いたウェイクワード開始端の高精度検出
- Authors: Christin Jose, Yuriy Mishchenko, Thibaud Senechal, Anish Shah, Alex
Escott, Shiv Vitaladevuni
- Abstract要約: 小さなフットプリント組み込みデバイスは、音声アシスタントを実現するために、小さなモデルサイズと検出遅延を持つキーワードスポッター(KWS)を必要とする。
単一段階の単語レベルニューラルネットワークを用いたニューラルKWSにおけるウェイクワードの終端を検出する2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 7.127506795239017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Small footprint embedded devices require keyword spotters (KWS) with small
model size and detection latency for enabling voice assistants. Such a keyword
is often referred to as \textit{wake word} as it is used to wake up voice
assistant enabled devices. Together with wake word detection, accurate
estimation of wake word endpoints (start and end) is an important task of KWS.
In this paper, we propose two new methods for detecting the endpoints of wake
words in neural KWS that use single-stage word-level neural networks. Our
results show that the new techniques give superior accuracy for detecting wake
words' endpoints of up to 50 msec standard error versus human annotations, on
par with the conventional Acoustic Model plus HMM forced alignment. To our
knowledge, this is the first study of wake word endpoints detection methods for
single-stage neural KWS.
- Abstract(参考訳): 小さなフットプリント組み込みデバイスは、音声アシスタントを実現するために、小さなモデルサイズと検出遅延を持つキーワードスポッター(KWS)を必要とする。
このようなキーワードは、ボイスアシスタント対応デバイスを起動するために使われるため、しばしば \textit{wake word} と呼ばれる。
ウェイクワード検出と合わせて、ウェイクワードエンドポイント(開始と終了)の正確な推定はkwsの重要なタスクである。
本稿では,単一段階の単語レベルニューラルネットワークを用いたニューラルKWSにおけるウェイクワードの終端を検出する2つの新しい手法を提案する。
提案手法は, 従来の音響モデルとhmm強制アライメントと比較して, 最大50msecの標準誤差のウェークワードのエンドポイント検出に優れた精度を示すことを示す。
我々の知る限り、これは単一段階のニューラルKWSに対するウェイクワード終端検出法の最初の研究である。
関連論文リスト
- To Wake-up or Not to Wake-up: Reducing Keyword False Alarm by Successive
Refinement [58.96644066571205]
既存の深層キーワードスポッティング機構は逐次リファインメントにより改善可能であることを示す。
13Kパラメーターから2.41Mパラメーターまで、複数のモデルにまたがって、連続精製法はFAを最大8.5%削減する。
提案手法は"plug-and-play"であり,任意の深いキーワードスポッティングモデルに適用できる。
論文 参考訳(メタデータ) (2023-04-06T23:49:29Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words [8.518479417031775]
ストリーミングキーワードスポッティングは、音声アシスタントを活性化するための広く使われているソリューションである。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T17:26:57Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Towards noise robust trigger-word detection with contrastive learning
pre-task for fast on-boarding of new trigger-words [0.0]
ユーザの音声アシスタントとのコミュニケーションのエントリポイントとして,トリガーワード検出が重要な役割を果たす。
本研究では,検出モデルが異なる単語や雑音条件に一般化するのに役立つ事前学習タスクとして,コントラスト学習を提案する。
対照的な事前学習手法は、データ利用率の低い新しいトリガー語を事前学習する従来の分類に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-06T22:39:05Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z) - Lattice-based Improvements for Voice Triggering Using Graph Neural
Networks [12.378732821814816]
誤ったトリガーの緩和は、プライバシー中心の非侵入型スマートアシスタントを構築する上で重要な側面である。
本稿では,グラフニューラルネットワーク(GNN)を用いた自動音声認識(ASR)格子の解析に基づく新しい手法を用いて,FTM(False trigger mitigation)の課題に対処する。
実験では,99%の真正率(TPR)で偽トリガーの87%を軽減し,FTMタスクにおいてGNNが極めて正確であることを実証した。
論文 参考訳(メタデータ) (2020-01-25T01:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。