論文の概要: Accelerator-Aware Training for Transducer-Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.07778v1
- Date: Fri, 12 May 2023 21:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 19:47:19.980394
- Title: Accelerator-Aware Training for Transducer-Based Speech Recognition
- Title(参考訳): トランスデューサに基づく音声認識のためのアクセラレータ・アウェアトレーニング
- Authors: Suhaila M. Shakiah, Rupak Vignesh Swaminathan, Hieu Duy Nguyen,
Raviteja Chinta, Tariq Afzal, Nathan Susanj, Athanasios Mouchtaris, Grant P.
Strimel, Ariya Rastrow
- Abstract要約: 本研究では,NNA演算子をトレーニング期間中に再現し,バックプロパゲーションにおけるNNAの低精度推論による劣化を考慮した。
提案手法は,NNA操作を効率的にエミュレートし,量子化エラーが発生しやすいデータをCPUに転送する必要性を先導する。
WERの10%の相対劣化を抑えながら、270K時間の英語データをトレーニングし、エンジン遅延を5-7%改善した。
- 参考スコア(独自算出の注目度): 16.959329474794092
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Machine learning model weights and activations are represented in
full-precision during training. This leads to performance degradation in
runtime when deployed on neural network accelerator (NNA) chips, which leverage
highly parallelized fixed-point arithmetic to improve runtime memory and
latency. In this work, we replicate the NNA operators during the training
phase, accounting for the degradation due to low-precision inference on the NNA
in back-propagation. Our proposed method efficiently emulates NNA operations,
thus foregoing the need to transfer quantization error-prone data to the
Central Processing Unit (CPU), ultimately reducing the user perceived latency
(UPL). We apply our approach to Recurrent Neural Network-Transducer (RNN-T), an
attractive architecture for on-device streaming speech recognition tasks. We
train and evaluate models on 270K hours of English data and show a 5-7%
improvement in engine latency while saving up to 10% relative degradation in
WER.
- Abstract(参考訳): 機械学習モデルの重みとアクティベーションは、トレーニング中に完全な精度で表現される。
これにより、ニューラルネットワークアクセラレータ(NNA)チップにデプロイされた場合、実行時のパフォーマンスが低下する。
本研究では,NNA演算子をトレーニング期間中に再現し,バックプロパゲーションにおけるNNAの低精度推論による劣化を考慮した。
提案手法は,NNA操作を効率よくエミュレートし,量子化エラーが発生しやすいデータをCPU(Central Processing Unit)に転送する必要性を推し進め,最終的にユーザ認識レイテンシ(UPL)を低減させる。
本稿では、オンデバイスストリーミング音声認識タスクの魅力的なアーキテクチャであるRecurrent Neural Network-Transducer (RNN-T) に適用する。
270k時間の英語データのモデルのトレーニングと評価を行い,エンジンのレイテンシを57%向上させるとともに,werの相対的劣化を最大10%削減した。
関連論文リスト
- EPIM: Efficient Processing-In-Memory Accelerators based on Epitome [78.79382890789607]
畳み込みのような機能を提供する軽量神経オペレータであるEpitomeを紹介する。
ソフトウェア側では,PIMアクセラレータ上でのエピトームのレイテンシとエネルギを評価する。
ハードウェア効率を向上させるため,PIM対応層設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-12T17:56:39Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Towards Memory- and Time-Efficient Backpropagation for Training Spiking
Neural Networks [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックコンピューティングのためのエネルギー効率の高いモデルである。
本研究では,学習効率を大幅に向上させつつ,高い性能を達成できる空間学習時間(SLTT)法を提案する。
BPTTと比較して, メモリコストとトレーニング時間は, それぞれ70%以上, 50%以上削減されている。
論文 参考訳(メタデータ) (2023-02-28T05:01:01Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Online Training Through Time for Spiking Neural Networks [66.7744060103562]
スパイキングニューラルネットワーク(SNN)は、脳にインスパイアされたエネルギー効率のモデルである。
近年のトレーニング手法の進歩により、レイテンシの低い大規模タスクにおいて、ディープSNNを成功させることができた。
本稿では,BPTT から派生した SNN の時間的学習(OTTT)によるオンライントレーニングを提案する。
論文 参考訳(メタデータ) (2022-10-09T07:47:56Z) - Learning in Feedback-driven Recurrent Spiking Neural Networks using
full-FORCE Training [4.124948554183487]
本稿では,トレーニング中にのみ第2のネットワークを導入するRSNNの教師付きトレーニング手順を提案する。
提案したトレーニング手順は、リカレント層とリードアウト層の両方のターゲットを生成することで構成される。
本研究では,8つの力学系をモデル化するためのフルFORCEトレーニング手法の性能向上とノイズ堅牢性を示す。
論文 参考訳(メタデータ) (2022-05-26T19:01:19Z) - Enabling Incremental Training with Forward Pass for Edge Devices [0.0]
進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。
この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-03-25T17:43:04Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Dynamic Hard Pruning of Neural Networks at the Edge of the Internet [11.605253906375424]
動的ハードプルーニング(DynHP)技術は、トレーニング中にネットワークを段階的にプルーニングする。
DynHPは、最終ニューラルネットワークの調整可能なサイズ削減と、トレーニング中のNNメモリ占有率の削減を可能にする。
凍結メモリは、ハードプルーニング戦略による精度劣化を相殺するために、エンファンダイナミックバッチサイズアプローチによって再利用される。
論文 参考訳(メタデータ) (2020-11-17T10:23:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。