論文の概要: Tiny-CRNN: Streaming Wakeword Detection In A Low Footprint Setting
- arxiv url: http://arxiv.org/abs/2109.14725v1
- Date: Wed, 29 Sep 2021 21:12:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 14:34:19.525459
- Title: Tiny-CRNN: Streaming Wakeword Detection In A Low Footprint Setting
- Title(参考訳): Tiny-CRNN:ローフットプリント設定でウェイクワードの検出をストリーミング
- Authors: Mohammad Omar Khursheed, Christin Jose, Rajath Kumar, Gengshen Fu,
Brian Kulis, Santosh Kumar Cheekatmalla
- Abstract要約: ウェイクワード検出問題に適用したTiny-CRNN(Tiny Convolutional Recurrent Neural Network)モデルを提案する。
畳み込みニューラルネットワークモデルと比較して,250kパラメータ予算における偽アクセプションは,パラメータサイズを10%削減して25%削減できることがわかった。
- 参考スコア(独自算出の注目度): 14.833049700174307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose Tiny-CRNN (Tiny Convolutional Recurrent Neural
Network) models applied to the problem of wakeword detection, and augment them
with scaled dot product attention. We find that, compared to Convolutional
Neural Network models, False Accepts in a 250k parameter budget can be reduced
by 25% with a 10% reduction in parameter size by using models based on the
Tiny-CRNN architecture, and we can get up to 32% reduction in False Accepts at
a 50k parameter budget with 75% reduction in parameter size compared to
word-level Dense Neural Network models. We discuss solutions to the challenging
problem of performing inference on streaming audio with this architecture, as
well as differences in start-end index errors and latency in comparison to CNN,
DNN, and DNN-HMM models.
- Abstract(参考訳): 本研究では,ウェイクワード検出問題に適用したTiny-CRNN(Tiny Convolutional Recurrent Neural Network)モデルを提案する。
畳み込みニューラルネットワークモデルと比較すると、250kのパラメータ予算における偽受入は、小さなcrnnアーキテクチャに基づくモデルを用いて、パラメータサイズを10%削減することで25%削減することができ、50kのパラメータで偽受入を最大32%削減でき、単語レベルの密集したニューラルネットワークモデルと比較してパラメータサイズを75%削減できることがわかった。
本稿では,CNN,DNN,DNN-HMMモデルと比較し,このアーキテクチャを用いてストリーミングオーディオの推論を行うという課題の解決法と,終末インデックスエラーと遅延の相違について論じる。
関連論文リスト
- Graph Neural Network for Accurate and Low-complexity SAR ATR [2.9766397696234996]
高精度かつ低レイテンシなSAR ATRを実現するために,グラフニューラルネットワーク(GNN)モデルを提案する。
提案したGNNモデルは計算複雑性が低く,高い精度を実現する。
現状のCNNと比較して、提案したGNNモデルは、計算コストが1/3000、モデルサイズが1/80である。
論文 参考訳(メタデータ) (2023-05-11T20:17:41Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - Accelerating Large Scale Real-Time GNN Inference using Channel Pruning [7.8799581908375185]
グラフニューラルネットワーク(GNN)は、下流アプリケーションにノード埋め込みを生成する強力なモデルであることが証明されている。
しかし,GNN推論の計算複雑性が高いため,大規模アプリケーションやリアルタイムアプリケーションにGNNをデプロイすることは困難である。
本稿では,各層内の次元を精度損失なく刈り取ることで,gnn推定を高速化することを提案する。
論文 参考訳(メタデータ) (2021-05-10T17:28:44Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Dynamically Throttleable Neural Networks (TNN) [24.052859278938858]
ディープニューラルネットワーク(DNN)の条件計算は、全体の計算負荷を削減し、ネットワークのサブセットを実行することでモデルの精度を向上させる。
我々は,自身のパフォーマンス目標と計算資源を適応的に自己制御できるランタイムスロットルブルニューラルネットワーク(TNN)を提案する。
論文 参考訳(メタデータ) (2020-11-01T20:17:42Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - TinyLSTMs: Efficient Neural Speech Enhancement for Hearing Aids [13.369813069254132]
モデル圧縮技術を用いて、大型ニューラルネットワークとバッテリ駆動型補聴器ハードウェアのギャップを埋める。
我々は,ウェイト/アクティベーションのプルーニングと整数量子化を用いて,RNN音声強調の有効性を初めて実証した。
我々のモデルは計算遅延が2.39msで、10msの目標と、以前の作業よりも351$times$である。
論文 参考訳(メタデータ) (2020-05-20T20:37:47Z) - Tensor-to-Vector Regression for Multi-channel Speech Enhancement based
on Tensor-Train Network [53.47564132861866]
マルチチャネル音声強調のためのテンソル-ベクトル回帰手法を提案する。
キーとなる考え方は、従来のディープニューラルネットワーク(DNN)ベースのベクトル-ベクトル回帰の定式化を、テンソル-トレインネットワーク(TTN)フレームワークで行うことである。
8チャンネル条件では、3.12のPSSQはTTNの2000万のパラメータを使用して達成されるが、6800万のパラメータを持つDNNは3.06のPSSQしか達成できない。
論文 参考訳(メタデータ) (2020-02-03T02:58:00Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。