論文の概要: Dual-Attention Neural Transducers for Efficient Wake Word Spotting in
Speech Recognition
- arxiv url: http://arxiv.org/abs/2304.01905v1
- Date: Mon, 3 Apr 2023 01:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:12:03.187228
- Title: Dual-Attention Neural Transducers for Efficient Wake Word Spotting in
Speech Recognition
- Title(参考訳): 音声認識におけるウェークワードスポッティングのためのデュアルアテンションニューラルトランスデューサ
- Authors: Saumya Y. Sahai, Jing Liu, Thejaswi Muniyappa, Kanthashree M.
Sathyendra, Anastasios Alexandridis, Grant P. Strimel, Ross McGowan, Ariya
Rastrow, Feng-Ju Chang, Athanasios Mouchtaris, Siegfried Kunzmann
- Abstract要約: We present dual-attention neural biasing, an architecture designed to improve Wake Words (WW) recognition and improve inference time latency on speech recognition task。
このアーキテクチャは、WWスポッティングを利用して、そのアテンションネットワークのどのブランチを選択して入力オーディオフレームを実行するかを選択することによって、実行時の計算経路の動的スイッチを可能にする。
提案手法により,WW音声フレームの計算コストを90%削減できることを示す。
- 参考スコア(独自算出の注目度): 22.671205533024285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present dual-attention neural biasing, an architecture designed to boost
Wake Words (WW) recognition and improve inference time latency on speech
recognition tasks. This architecture enables a dynamic switch for its runtime
compute paths by exploiting WW spotting to select which branch of its attention
networks to execute for an input audio frame. With this approach, we
effectively improve WW spotting accuracy while saving runtime compute cost as
defined by floating point operations (FLOPs). Using an in-house de-identified
dataset, we demonstrate that the proposed dual-attention network can reduce the
compute cost by $90\%$ for WW audio frames, with only $1\%$ increase in the
number of parameters. This architecture improves WW F1 score by $16\%$ relative
and improves generic rare word error rate by $3\%$ relative compared to the
baselines.
- Abstract(参考訳): 本稿では,wake words (ww) 認識を促進させ,音声認識タスクにおける推論時間遅延を改善するアーキテクチャであるdual-attention neural biasingを提案する。
このアーキテクチャは、wwスポッティングを利用して、入力オーディオフレームに対してどのブランチを実行するかを選択することで、実行時の計算パスの動的スイッチを可能にする。
提案手法では,浮動小数点演算(FLOP)によって定義されたランタイム計算コストを削減しつつ,WWスポッティング精度を効果的に向上する。
そこで本研究では,本提案方式のデュアルアテンションネットワークを用いて,wwオーディオフレームの計算コストを90-%$で削減し,パラメータ数を1-%$で増やすことを実証する。
このアーキテクチャは、ww f1スコアを16\%$相対的に改善し、一般的なレアワードエラーレートをベースラインと比較して3\%$改善する。
関連論文リスト
- Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network [1.006218778776515]
自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
論文 参考訳(メタデータ) (2023-02-26T18:28:20Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - Implicit Acoustic Echo Cancellation for Keyword Spotting and
Device-Directed Speech Detection [2.7393821783237184]
多くの音声対応のヒューマンマシンインタラクションシナリオでは、ユーザ音声はデバイスがオーディオを再生するときに重複する可能性がある。
そこで我々は,ニューラルネットワークをトレーニングし,参照マイクロホンチャネルからの付加情報を利用する暗黙の音響エコーキャンセリングフレームワークを提案する。
デバイス再生条件下でDDDタスクの偽リジェクト率を56%削減することを示す。
論文 参考訳(メタデータ) (2021-11-20T17:21:16Z) - Improving the expressiveness of neural vocoding with non-affine
Normalizing Flows [10.823849173208082]
改良されたパラレルウェーブネット(PW)による表現的音声ボコーディングの改善
我々は,PW論文が提案する確率密度手順を原論文と比較することにより,確率密度を拡張する。
論文 参考訳(メタデータ) (2021-06-16T09:25:18Z) - Listen with Intent: Improving Speech Recognition with Audio-to-Intent
Front-End [26.418768063117767]
反復ニューラルネットワークトランスデューサに基づく自動音声認識システムを改善するために,意図表現を付加情報として明示的に組み込むことの影響を検討する。
実験の結果,発話全体から意図表現を抽出し,最初からRNN-T検索をバイアスする非ストリーミングモードでシステムを実行する場合,相対単語誤り率(WERR)が5.56%低下することがわかった。
ストリーミングシステムのより詳細な分析により,提案手法がメディア再生関連意図に特に有益であることを示す。
論文 参考訳(メタデータ) (2021-05-14T21:19:30Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。