論文の概要: Memory-efficient Speech Recognition on Smart Devices
- arxiv url: http://arxiv.org/abs/2102.11531v1
- Date: Tue, 23 Feb 2021 07:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 13:51:04.777585
- Title: Memory-efficient Speech Recognition on Smart Devices
- Title(参考訳): スマートデバイスにおけるメモリ効率のよい音声認識
- Authors: Ganesh Venkatesh, Alagappan Valliappan, Jay Mahadeokar, Yuan
Shangguan, Christian Fuegen, Michael L. Seltzer, Vikas Chandra
- Abstract要約: リカレントトランスデューサモデルは、スマートデバイス上での音声認識のための有望なソリューションとして登場した。
これらのモデルは、デバイスのバッテリー寿命に悪影響を及ぼす入力時間ステップ毎のオフチップメモリからパラメータにアクセスし、低消費電力デバイスでのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
- 参考スコア(独自算出の注目度): 15.015948023187809
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent transducer models have emerged as a promising solution for speech
recognition on the current and next generation smart devices. The transducer
models provide competitive accuracy within a reasonable memory footprint
alleviating the memory capacity constraints in these devices. However, these
models access parameters from off-chip memory for every input time step which
adversely effects device battery life and limits their usability on low-power
devices.
We address transducer model's memory access concerns by optimizing their
model architecture and designing novel recurrent cell designs. We demonstrate
that i) model's energy cost is dominated by accessing model weights from
off-chip memory, ii) transducer model architecture is pivotal in determining
the number of accesses to off-chip memory and just model size is not a good
proxy, iii) our transducer model optimizations and novel recurrent cell reduces
off-chip memory accesses by 4.5x and model size by 2x with minimal accuracy
impact.
- Abstract(参考訳): リカレントトランスデューサモデルは、現在および次世代のスマートデバイスにおける音声認識の有望なソリューションとして登場しました。
トランスデューサモデルは、これらのデバイスのメモリ容量の制約を軽減する合理的なメモリフットプリント内の競争力のある精度を提供します。
しかし、これらのモデルは入力時間ステップ毎にオフチップメモリからパラメータにアクセスし、デバイスのバッテリ寿命に悪影響を及ぼし、低消費電力デバイスのユーザビリティを制限する。
トランスデューサモデルのメモリアクセスに関する懸念を、モデルアーキテクチャの最適化と新規なリカレントセル設計により解決します。
i) モデルのエネルギーコストは,オフチップメモリからモデルウェイトにアクセスすることで支配的であること,ii) トランスデューサモデルアーキテクチャは、オフチップメモリへのアクセス数を決定する上で重要であり,モデルサイズだけでは良いプロキシではないこと,iii) 私たちのトランスデューサモデルの最適化と新しいリカレントセルは、オフチップメモリへのアクセスを4.5倍削減し,モデルサイズを2倍小さくする。
関連論文リスト
- Analog In-Memory Computing Attention Mechanism for Fast and Energy-Efficient Large Language Models [0.755189019348525]
自己注意によって駆動されるトランスフォーマーネットワークは、大規模言語モデルの中心である。
生成トランスフォーマーでは、自己アテンションはキャッシュメモリを使用してトークンプロジェクションを格納し、各ステップで再計算を避ける。
本稿では、ゲインセルと呼ばれる新しいチャージベースのメモリをベースとした、独自の自己アテンションインメモリコンピューティングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-28T11:00:11Z) - Hermes: Memory-Efficient Pipeline Inference for Large Models on Edge Devices [19.96064012736243]
本稿では,メモリ効率の高いパイプライン実行機構であるPIPELOADを紹介する。
動的メモリ管理を取り入れることでメモリ使用量を削減し、推論遅延を最小限にする。
本稿では,エッジデバイス上での大規模モデル推論に最適化されたフレームワークであるHermesを紹介する。
論文 参考訳(メタデータ) (2024-09-06T12:55:49Z) - Memory-efficient Energy-adaptive Inference of Pre-Trained Models on Batteryless Embedded Systems [0.0]
バッテリーレスシステムは、しばしば電力障害に直面し、進捗を維持するために余分なランタイムバッファを必要とし、超小さなディープニューラルネットワーク(DNN)を格納するためのメモリスペースだけを残します。
電池レスシステムにおけるメモリ効率とエネルギー順応性推論のために,事前学習したDNNモデルを最適化するフレームワークであるFreeMLを提案する。
実験の結果,FreeML はモデルサイズを最大 95 倍まで削減し,適応推論を 2.03-19.65 倍のメモリオーバーヘッドでサポートし,最先端技術と比較して無視できる精度の低下のみを伴って,大幅な時間とエネルギーのメリットを提供することがわかった。
論文 参考訳(メタデータ) (2024-05-16T20:16:45Z) - MEMORYLLM: Towards Self-Updatable Large Language Models [101.3777486749529]
既存のLarge Language Models (LLM) は通常、デプロイ後も静的のままである。
本稿では,変圧器と固定サイズのメモリプールを備えたモデルMEMORYLLMを紹介する。
MEMORYLLMは、テキスト知識を自己更新し、早期に注入された知識を記憶することができる。
論文 参考訳(メタデータ) (2024-02-07T07:14:11Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Improving the Efficiency of Transformers for Resource-Constrained
Devices [1.3019517863608956]
いくつかのデバイス上での最先端の視覚変換器の性能解析を行う。
モデルパラメータを表すために64個のクラスタのみを使用することで、メインメモリからのデータ転送を4倍以上削減できることを示す。
論文 参考訳(メタデータ) (2021-06-30T12:10:48Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - A Compact Gated-Synapse Model for Neuromorphic Circuits [77.50840163374757]
このモデルは、ニューロモルフィック回路のコンピュータ支援設計への統合を容易にするためにVerilog-Aで開発された。
モデルの振る舞い理論は、デフォルトパラメータ設定の完全なリストとともに詳細に記述されている。
論文 参考訳(メタデータ) (2020-06-29T18:22:11Z) - Low-rank Gradient Approximation For Memory-Efficient On-device Training
of Deep Neural Network [9.753369031264532]
モバイルデバイス上で機械学習モデルをトレーニングすることは、モデルのプライバシと精度の両方を改善する可能性がある。
この目標を達成する上での大きな障害のひとつは、モバイルデバイスのメモリ制限である。
本稿では,低ランクパラメータ化を用いた深層ニューラルネットワークの勾配行列の近似手法を提案する。
論文 参考訳(メタデータ) (2020-01-24T05:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。