論文の概要: Optimize what matters: Training DNN-HMM Keyword Spotting Model Using End
Metric
- arxiv url: http://arxiv.org/abs/2011.01151v2
- Date: Fri, 26 Feb 2021 00:06:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:17:03.022340
- Title: Optimize what matters: Training DNN-HMM Keyword Spotting Model Using End
Metric
- Title(参考訳): DNN-HMMキーワードスポッティングモデルのエンドメトリックによるトレーニング
- Authors: Ashish Shrivastava, Arnav Kundu, Chandra Dhir, Devang Naik, Oncel
Tuzel
- Abstract要約: ディープニューラルネットワーク-隠れマルコフモデル(DNN-HMM)に基づく手法は、常にオンのキーワードスポッティングアルゴリズムの多くでうまく使われている。
本稿では,検出スコアを最適化することで,DNNパラメータを学習する新たなエンドツーエンドトレーニング戦略を提案する。
私たちのメソッドは、モデルアーキテクチャや推論フレームワークの変更を一切必要としません。
- 参考スコア(独自算出の注目度): 21.581361079189563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Neural Network--Hidden Markov Model (DNN-HMM) based methods have been
successfully used for many always-on keyword spotting algorithms that detect a
wake word to trigger a device. The DNN predicts the state probabilities of a
given speech frame, while HMM decoder combines the DNN predictions of multiple
speech frames to compute the keyword detection score. The DNN, in prior
methods, is trained independent of the HMM parameters to minimize the
cross-entropy loss between the predicted and the ground-truth state
probabilities. The mis-match between the DNN training loss (cross-entropy) and
the end metric (detection score) is the main source of sub-optimal performance
for the keyword spotting task. We address this loss-metric mismatch with a
novel end-to-end training strategy that learns the DNN parameters by optimizing
for the detection score. To this end, we make the HMM decoder (dynamic
programming) differentiable and back-propagate through it to maximize the score
for the keyword and minimize the scores for non-keyword speech segments. Our
method does not require any change in the model architecture or the inference
framework; therefore, there is no overhead in run-time memory or compute
requirements. Moreover, we show significant reduction in false rejection rate
(FRR) at the same false trigger experience (> 70% over independent DNN
training).
- Abstract(参考訳): ディープニューラルネットワーク-隠れマルコフモデル(dnn-hmm)ベースの手法は、ウェイクワードを検知してデバイスをトリガーする多くの常時オンキーワードスポッティングアルゴリズムでうまく使われている。
DNNは与えられた音声フレームの状態確率を予測し、HMMデコーダは複数の音声フレームのDNN予測を組み合わせてキーワード検出スコアを算出する。
従来の手法では、DNNはHMMパラメータとは独立に訓練され、予測された状態と地絡状態の確率の間のクロスエントロピー損失を最小限に抑える。
dnnのトレーニング損失(クロスエントロピー)とエンドメトリック(検出スコア)のミスマッチは、キーワードスポッティングタスクの副最適化パフォーマンスの主な原因である。
検出スコアを最適化することでDNNパラメータを学習する新しいエンドツーエンドトレーニング戦略を用いて、この損失測定ミスマッチに対処する。
この目的のために、HMMデコーダ(動的プログラミング)を識別可能とし、キーワードのスコアを最大化し、非キーワード音声セグメントのスコアを最小化する。
我々のメソッドはモデルアーキテクチャや推論フレームワークの変更を一切必要としないため、実行時のメモリや計算要求にオーバーヘッドはない。
また,FRR(False Rejection rate)は,同一の偽トリガー経験(独立DNNトレーニングの70%以上)で有意に低下した。
関連論文リスト
- Return of the RNN: Residual Recurrent Networks for Invertible Sentence
Embeddings [0.0]
本研究では、教師なし符号化タスクで訓練された残効再帰ネットワークを用いて、非可逆文埋め込みのための新しいモデルを提案する。
ニューラルネットワーク翻訳モデルに共通する確率的出力ではなく、回帰に基づく出力層を用いて入力シーケンスのワードベクトルを再構成する。
RNNはLSTMや2次最適化法などのメモリユニットを必要とすることを考えると、このモデルはADAMによる高精度かつ高速なトレーニングを実現している。
論文 参考訳(メタデータ) (2023-03-23T15:59:06Z) - HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words [8.518479417031775]
ストリーミングキーワードスポッティングは、音声アシスタントを活性化するための広く使われているソリューションである。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T17:26:57Z) - Automated machine learning for borehole resistivity measurements [0.0]
ディープニューラルネットワーク(DNN)は、ボアホール比抵抗測定の反転のためのリアルタイムソリューションを提供する。
非常に大きなDNNを使って演算子を近似することができるが、かなりの訓練時間を必要とする。
本研究では,DNNの精度とサイズを考慮したスコアリング機能を提案する。
論文 参考訳(メタデータ) (2022-07-20T12:27:22Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - GraN: An Efficient Gradient-Norm Based Detector for Adversarial and
Misclassified Examples [77.99182201815763]
ディープニューラルネットワーク(DNN)は、敵対的な例やその他のデータ摂動に対して脆弱である。
GraNは、どのDNNにも容易に適応できる時間およびパラメータ効率の手法である。
GraNは多くの問題セットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-04-20T10:09:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。