論文の概要: TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices
- arxiv url: http://arxiv.org/abs/2008.04245v6
- Date: Mon, 12 Oct 2020 19:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 22:22:14.582877
- Title: TinySpeech: Attention Condensers for Deep Speech Recognition Neural
Networks on Edge Devices
- Title(参考訳): TinySpeech:エッジデバイス上でのディープ音声認識ニューラルネットワークのための注意凝縮器
- Authors: Alexander Wong, Mahmoud Famouri, Maya Pavlova, and Siddharth Surana
- Abstract要約: エッジ上でのオンデバイス音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のためのアテンションコンデンサの概念を紹介する。
その有効性を説明するために,デバイス上での音声認識に適した低精度深層ニューラルネットワークTinySpeechを導入する。
- 参考スコア(独自算出の注目度): 71.68436132514542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in deep learning have led to state-of-the-art performance across a
multitude of speech recognition tasks. Nevertheless, the widespread deployment
of deep neural networks for on-device speech recognition remains a challenge,
particularly in edge scenarios where the memory and computing resources are
highly constrained (e.g., low-power embedded devices) or where the memory and
computing budget dedicated to speech recognition is low (e.g., mobile devices
performing numerous tasks besides speech recognition). In this study, we
introduce the concept of attention condensers for building low-footprint,
highly-efficient deep neural networks for on-device speech recognition on the
edge. An attention condenser is a self-attention mechanism that learns and
produces a condensed embedding characterizing joint local and cross-channel
activation relationships, and performs selective attention accordingly. To
illustrate its efficacy, we introduce TinySpeech, low-precision deep neural
networks comprising largely of attention condensers tailored for on-device
speech recognition using a machine-driven design exploration strategy, with one
tailored specifically with microcontroller operation constraints. Experimental
results on the Google Speech Commands benchmark dataset for limited-vocabulary
speech recognition showed that TinySpeech networks achieved significantly lower
architectural complexity (as much as $507\times$ fewer parameters), lower
computational complexity (as much as $48\times$ fewer multiply-add operations),
and lower storage requirements (as much as $2028\times$ lower weight memory
requirements) when compared to previous work. These results not only
demonstrate the efficacy of attention condensers for building highly efficient
networks for on-device speech recognition, but also illuminate its potential
for accelerating deep learning on the edge and empowering TinyML applications.
- Abstract(参考訳): ディープラーニングの進歩は、さまざまな音声認識タスクにおける最先端のパフォーマンスにつながった。
それでも、デバイス上での音声認識のためのディープニューラルネットワークの広範な展開は、特にメモリとコンピューティングリソースが高度に制約された(例えば低消費電力組み込みデバイス)エッジシナリオや、音声認識専用のメモリとコンピューティング予算が低い(例えば、音声認識以外の多くのタスクを実行するモバイルデバイス)エッジシナリオにおいて、依然として課題である。
本研究では,エッジ上でのデバイス内音声認識のための低フットプリント,高効率深層ニューラルネットワーク構築のための注目凝縮器の概念を紹介する。
注目凝縮器は、共同局所およびチャネル間活性化関係を特徴付ける凝縮埋め込みを学習し、生成し、それに応じて選択的注意を行う自己注意機構である。
その有効性を説明するために、機械駆動設計探索戦略を用いて、デバイス上での音声認識に適した注目凝縮器からなる低精度ディープニューラルネットワークTinySpeechを導入し、マイクロコントローラの動作制約に特化している。
限定語彙音声認識のためのGoogle Speech Commandsベンチマークデータセットの実験結果によると、TinySpeechネットワークはアーキテクチャの複雑さを著しく低減し(パラメータを最大507\times$少ない)、計算の複雑さを低く(最大48\times$少ない乗算加算演算)、ストレージの要件を低く(最大2028\times$低いウェイトメモリ要求)した。
これらの結果は、デバイス上での音声認識のための高能率ネットワーク構築のための注目凝縮器の有効性を示すだけでなく、エッジ上でのディープラーニングの促進とTinyMLアプリケーションの強化の可能性を示す。
関連論文リスト
- Deep Photonic Reservoir Computer for Speech Recognition [49.1574468325115]
音声認識は人工知能の分野で重要な課題であり、目覚ましい進歩を目撃してきた。
深い貯水池コンピューティングはエネルギー効率が高いが、よりリソース集約的な機械学習アルゴリズムと比較して、パフォーマンスに制限がある。
フォトニック方式の深層貯水池コンピュータを提案し,その性能を音声認識タスクで評価する。
論文 参考訳(メタデータ) (2023-12-11T17:43:58Z) - Event Based Time-Vectors for auditory features extraction: a
neuromorphic approach for low power audio recognition [4.206844212918807]
教師なしの聴覚特徴認識が可能なニューロモルフィックアーキテクチャを提案する。
次に、GoogleのSpeech Commandsデータセットのサブセットでネットワークを検証する。
論文 参考訳(メタデータ) (2021-12-13T21:08:04Z) - AttendSeg: A Tiny Attention Condenser Neural Network for Semantic
Segmentation on the Edge [71.80459780697956]
デバイス上のセマンティックセグメンテーションに適した,低精度でコンパクトなディープニューラルネットワークである textbfAttendSeg を紹介する。
attendsegは、空間-チャネル選択的注意を改善するために軽量注意凝縮器からなるセルフアテンションネットワークアーキテクチャを持っている。
論文 参考訳(メタデータ) (2021-04-29T19:19:04Z) - Binary Neural Network for Speaker Verification [13.472791713805762]
本稿では,二元的ニューラルネットワークを話者検証の課題に適用する方法に焦点をあてる。
実験の結果、Convolutional Neural Networkをバイナライズした後、ResNet34ベースのネットワークは約5%のEERを達成した。
論文 参考訳(メタデータ) (2021-04-06T06:04:57Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - AttendNets: Tiny Deep Image Recognition Neural Networks for the Edge via
Visual Attention Condensers [81.17461895644003]
我々は、オンデバイス画像認識に適した、低精度でコンパクトなディープニューラルネットワークであるAttendNetsを紹介する。
AttendNetsは、視覚的注意の凝縮に基づく深い自己注意アーキテクチャを持っている。
その結果、AttendNetsは、いくつかのディープニューラルネットワークと比較して、アーキテクチャと計算の複雑さが著しく低いことが示された。
論文 参考訳(メタデータ) (2020-09-30T01:53:17Z) - Resource-Efficient Speech Mask Estimation for Multi-Channel Speech
Enhancement [15.361841669377776]
ディープニューラルネットワーク(DNN)に基づくマルチチャンネル音声強調のための資源効率の高い手法を提案する。
特に、低精度DNNを用いて、ノイズの多いマルチチャネルマイクロホン観測から音声マスクを推定する。
2重みの極端な場合と精度の低下により、実行時間とメモリフットプリントの大幅な削減が可能となる。
論文 参考訳(メタデータ) (2020-07-22T14:58:29Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。