論文の概要: HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words
- arxiv url: http://arxiv.org/abs/2210.15425v1
- Date: Wed, 26 Oct 2022 17:26:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 16:17:28.644830
- Title: HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words
- Title(参考訳): HEiMDaL:ウェイクワードの検出と位置推定のための高効率手法
- Authors: Arnav Kundu, Mohammad Samragh Razlighi, Minsik Cho, Priyanka
Padmanabhan, Devang Naik
- Abstract要約: ストリーミングキーワードスポッティングは、音声アシスタントを活性化するための広く使われているソリューションである。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
- 参考スコア(独自算出の注目度): 8.518479417031775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Streaming keyword spotting is a widely used solution for activating voice
assistants. Deep Neural Networks with Hidden Markov Model (DNN-HMM) based
methods have proven to be efficient and widely adopted in this space, primarily
because of the ability to detect and identify the start and end of the wake-up
word at low compute cost. However, such hybrid systems suffer from loss metric
mismatch when the DNN and HMM are trained independently. Sequence
discriminative training cannot fully mitigate the loss-metric mismatch due to
the inherent Markovian style of the operation. We propose an low footprint CNN
model, called HEiMDaL, to detect and localize keywords in streaming conditions.
We introduce an alignment-based classification loss to detect the occurrence of
the keyword along with an offset loss to predict the start of the keyword.
HEiMDaL shows 73% reduction in detection metrics along with equivalent
localization accuracy and with the same memory footprint as existing DNN-HMM
style models for a given wake-word.
- Abstract(参考訳): ストリーミングキーワードスポッティングは、音声アシスタントの活性化に広く使われているソリューションである。
隠れマルコフモデル(DNN-HMM)に基づくディープニューラルネットワークはこの分野で効率的かつ広く採用されていることが証明されている。
しかし、これらのハイブリッドシステムは、DNNとHMMが独立して訓練されたときに、損失計量ミスマッチに悩まされる。
シーケンス識別訓練は、本質的なマルコフスタイルによる損失測定ミスマッチを完全に軽減することができない。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
本稿では,アライメントに基づく分類損失を導入し,キーワードの発生とオフセット損失を検知し,キーワードの開始を予測する。
HEiMDaLは、検出基準の73%削減と、等価なローカライゼーション精度、および与えられたウェイクワードに対する既存のDNN-HMMスタイルモデルと同じメモリフットプリントを示す。
関連論文リスト
- Towards Faster k-Nearest-Neighbor Machine Translation [56.66038663128903]
k-nearest-neighbor 機械翻訳アプローチは、トークンをデコードする際に、データストア全体の重い検索オーバーヘッドに悩まされる。
ニューラルネットワークの翻訳モデルとkNNが生成する確率によってトークンが共同で翻訳されるべきかどうかを予測するための,単純で効果的な多層パーセプトロン(MLP)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-12T16:41:29Z) - Performance evaluation of Machine learning algorithms for Intrusion Detection System [0.40964539027092917]
本稿では機械学習(ML)技術を用いた侵入検知システム(IDS)の解析に焦点を当てた。
機械学習モデルのトレーニングと検証に使用されるKDD CUP-'99'侵入検出データセットを分析した。
論文 参考訳(メタデータ) (2023-10-01T06:35:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Real-time Speech Emotion Recognition Based on Syllable-Level Feature
Extraction [7.0019575386261375]
音節レベルの特徴を分解・分析するリダミストアプローチに基づく音声感情認識システムを提案する。
音節レベルのフォルマントの一連の特徴を抽出し、各音節の予測を行う単一の隠蔽層ニューラルネットワークに入力する。
実験によると、この手法は、最先端のクロスコーパスでIEが47.6%、MIが56.2%の精度で予測しながら、リアルタイムのレイテンシをアーカイブする。
論文 参考訳(メタデータ) (2022-04-25T00:20:28Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Optimize what matters: Training DNN-HMM Keyword Spotting Model Using End
Metric [21.581361079189563]
ディープニューラルネットワーク-隠れマルコフモデル(DNN-HMM)に基づく手法は、常にオンのキーワードスポッティングアルゴリズムの多くでうまく使われている。
本稿では,検出スコアを最適化することで,DNNパラメータを学習する新たなエンドツーエンドトレーニング戦略を提案する。
私たちのメソッドは、モデルアーキテクチャや推論フレームワークの変更を一切必要としません。
論文 参考訳(メタデータ) (2020-11-02T17:47:21Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - Small-Footprint Open-Vocabulary Keyword Spotting with Quantized LSTM
Networks [3.8382752162527933]
本稿では,オープン語彙のキーワードスポッティング手法に着目し,モデル全体を再トレーニングすることなく,ユーザが独自のキーワードを定義できるようにする。
ユーザ定義キーワードの任意のセットに対して,小さなデバイス上で動作可能な高速かつ小型のフットプリントシステムを実現するための,さまざまな設計選択について説明する。
論文 参考訳(メタデータ) (2020-02-25T13:27:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。