論文の概要: Conformer-Based Speech Recognition On Extreme Edge-Computing Devices
- arxiv url: http://arxiv.org/abs/2312.10359v3
- Date: Mon, 13 May 2024 20:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:31:02.502906
- Title: Conformer-Based Speech Recognition On Extreme Edge-Computing Devices
- Title(参考訳): 極端エッジ計算デバイスにおけるコンバータに基づく音声認識
- Authors: Mingbin Xu, Alex Jin, Sicheng Wang, Mu Su, Tim Ng, Henry Mason, Shiyi Han, Zhihong Lei, Yaqiao Deng, Zhen Huang, Mahesh Krishnamoorthy,
- Abstract要約: 本稿では,高度なコンバータベースのエンドツーエンドストリーミングASRシステムを,精度の低下を伴わないリソース制約デバイスに適合させるために,一連のモデルアーキテクチャ適応,ニューラルネットワーク変換,数値最適化を提案する。
我々は、エネルギー消費を最小化し、最先端の精度を達成しつつ、スマートウェアラブル上でのリアルタイム(0.19)音声認識よりも5.26倍の速さで達成する。
- 参考スコア(独自算出の注目度): 5.283478623008102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With increasingly more powerful compute capabilities and resources in today's devices, traditionally compute-intensive automatic speech recognition (ASR) has been moving from the cloud to devices to better protect user privacy. However, it is still challenging to implement on-device ASR on resource-constrained devices, such as smartphones, smart wearables, and other smart home automation devices. In this paper, we propose a series of model architecture adaptions, neural network graph transformations, and numerical optimizations to fit an advanced Conformer based end-to-end streaming ASR system on resource-constrained devices without accuracy degradation. We achieve over 5.26 times faster than realtime (0.19 RTF) speech recognition on smart wearables while minimizing energy consumption and achieving state-of-the-art accuracy. The proposed methods are widely applicable to other transformer-based server-free AI applications. In addition, we provide a complete theory on optimal pre-normalizers that numerically stabilize layer normalization in any Lp-norm using any floating point precision.
- Abstract(参考訳): 今日のデバイスでは、ますます強力な計算能力とリソースによって、従来の計算集約型自動音声認識(ASR)は、ユーザのプライバシをより保護するために、クラウドからデバイスへと移行してきた。
しかし、スマートフォン、スマートウェアラブル、その他のスマートホームオートメーションデバイスなど、リソースに制約のあるデバイスに対して、オンデバイスASRを実装することは依然として困難である。
本稿では,モデルアーキテクチャの適応,ニューラルネットワークグラフ変換,数値最適化により,高度なコンバータベースのエンドツーエンドストリーミングASRシステムを,精度の低下を伴わずに資源制約のあるデバイスに適合させる手法を提案する。
スマートウェアラブルにおけるリアルタイム(0.19 RTF)音声認識よりも5.26倍高速で、エネルギー消費を最小化し、最先端の精度を達成する。
提案手法は,他のトランスフォーマーベースのサーバフリーAIアプリケーションに適用可能である。
さらに、任意の浮動小数点精度を用いて任意のLpノルムにおける層正規化を数値的に安定化する最適な事前正規化器に関する完全な理論を提供する。
関連論文リスト
- Sparse Binarization for Fast Keyword Spotting [10.964148450512972]
KWSモデルは、リアルタイムアプリケーション、プライバシ、帯域幅効率のためにエッジデバイスにデプロイすることができる。
本稿では,スパース入力表現に基づく新しいキーワードスポッティングモデルを提案する。
また,本手法は高速かつノイズの多い環境でもより堅牢である。
論文 参考訳(メタデータ) (2024-06-09T08:03:48Z) - Dynamic Early Exiting Predictive Coding Neural Networks [3.542013483233133]
より小型で正確なデバイスを求めると、Deep Learningモデルはデプロイするには重すぎる。
予測符号化理論と動的早期退避に基づく浅層双方向ネットワークを提案する。
我々は,CIFAR-10上の画像分類におけるVGG-16と同等の精度を,より少ないパラメータと少ない計算量で達成した。
論文 参考訳(メタデータ) (2023-09-05T08:00:01Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Differentially Private Federated Learning for Resource-Constrained
Internet of Things [24.58409432248375]
フェデレーション学習は、中央にデータをアップロードすることなく、分散されたスマートデバイスから大量のデータを分析できる。
本稿では、IoTのリソース制約されたスマートデバイスにまたがるデータから機械学習モデルを効率的にトレーニングするためのDP-PASGDと呼ばれる新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-28T04:32:54Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。