論文の概要: Memory-efficient Speech Recognition on Smart Devices
- arxiv url: http://arxiv.org/abs/2102.11531v1
- Date: Tue, 23 Feb 2021 07:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:51:04.777585
- Title: Memory-efficient Speech Recognition on Smart Devices
- Title(参考訳): スマートデバイスにおけるメモリ効率のよい音声認識
- Authors: Ganesh Venkatesh, Alagappan Valliappan, Jay Mahadeokar, Yuan
Shangguan, Christian Fuegen, Michael L. Seltzer, Vikas Chandra
- Abstract要約: リカレントトランスデューサモデルは、スマートデバイス上での音声認識のための有望なソリューションとして登場した。
これらのモデルは、デバイスのバッテリー寿命に悪影響を及ぼす入力時間ステップ毎のオフチップメモリからパラメータにアクセスし、低消費電力デバイスでのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
- 参考スコア(独自算出の注目度): 15.015948023187809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent transducer models have emerged as a promising solution for speech
recognition on the current and next generation smart devices. The transducer
models provide competitive accuracy within a reasonable memory footprint
alleviating the memory capacity constraints in these devices. However, these
models access parameters from off-chip memory for every input time step which
adversely effects device battery life and limits their usability on low-power
devices.
We address transducer model's memory access concerns by optimizing their
model architecture and designing novel recurrent cell designs. We demonstrate
that i) model's energy cost is dominated by accessing model weights from
off-chip memory, ii) transducer model architecture is pivotal in determining
the number of accesses to off-chip memory and just model size is not a good
proxy, iii) our transducer model optimizations and novel recurrent cell reduces
off-chip memory accesses by 4.5x and model size by 2x with minimal accuracy
impact.
- Abstract(参考訳): リカレントトランスデューサモデルは、現在および次世代のスマートデバイスにおける音声認識の有望なソリューションとして登場しました。
トランスデューサモデルは、これらのデバイスのメモリ容量の制約を軽減する合理的なメモリフットプリント内の競争力のある精度を提供します。
しかし、これらのモデルは入力時間ステップ毎にオフチップメモリからパラメータにアクセスし、デバイスのバッテリ寿命に悪影響を及ぼし、低消費電力デバイスのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
i) モデルのエネルギーコストは,オフチップメモリからモデルウェイトにアクセスすることで支配的であること,ii) トランスデューサモデルアーキテクチャは、オフチップメモリへのアクセス数を決定する上で重要であり,モデルサイズだけでは良いプロキシではないこと,iii) 私たちのトランスデューサモデルの最適化と新しいリカレントセルは、オフチップメモリへのアクセスを4.5倍削減し,モデルサイズを2倍小さくする。
関連論文リスト
- MEMORYLLM: Towards Self-Updatable Large Language Models [52.99595594628542]
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
このモデルは、我々のカスタム設計評価と長期コンテキストベンチマークによって検証された長期情報保持能力を示す。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Folding Attention: Memory and Power Optimization for On-Device
Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。
ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。
本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文 参考訳(メタデータ) (2023-09-14T19:01:08Z) - Recurrent Memory Decision Transformer [55.41644538483948]
本稿では,リカレントメモリ決定変換器(RMDT)を提案する。
我々は,アタリゲームと MuJoCo 制御問題に関する徹底的な実験を行い,提案モデルが再帰的なメモリ機構を伴わずに,そのモデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - POET: Training Neural Networks on Tiny Devices with Integrated
Rematerialization and Paging [35.397804171588476]
エッジデバイスの微調整モデルは、機密データに対するプライバシー保護のパーソナライゼーションを可能にする。
バッテリー駆動エッジデバイス上での大規模ニューラルネットワークのトレーニングを可能にするアルゴリズムであるPOETを提案する。
論文 参考訳(メタデータ) (2022-07-15T18:36:29Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - A High Throughput Generative Vector Autoregression Model for Stochastic
Synapses [0.0]
我々は,抵抗性メモリセルの電気的測定データに基づくシナプスアレイの高スループット生成モデルを開発した。
10億セルを超える配列サイズと、毎秒1億の重み更新のスループットを、30フレーム/秒の4Kビデオストリームのピクセルレートよりも上回っていることを実証した。
論文 参考訳(メタデータ) (2022-05-10T17:08:30Z) - Improving the Efficiency of Transformers for Resource-Constrained
Devices [1.3019517863608956]
いくつかのデバイス上での最先端の視覚変換器の性能解析を行う。
モデルパラメータを表すために64個のクラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減できることを示す。
論文 参考訳(メタデータ) (2021-06-30T12:10:48Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - A Compact Gated-Synapse Model for Neuromorphic Circuits [77.50840163374757]
このモデルは、ニューロモルフィック回路のコンピュータ支援設計への統合を容易にするためにVerilog-Aで開発された。
モデルの振る舞い理論は、デフォルトパラメータ設定の完全なリストとともに詳細に記述されている。
論文 参考訳(メタデータ) (2020-06-29T18:22:11Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。