論文の概要: Not All Weights Are Created Equal: Enhancing Energy Efficiency in
On-Device Streaming Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.13076v1
- Date: Tue, 20 Feb 2024 15:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 14:40:42.385718
- Title: Not All Weights Are Created Equal: Enhancing Energy Efficiency in
On-Device Streaming Speech Recognition
- Title(参考訳): すべてのウェイトが等しく作られているわけではない:オンデバイスストリーミング音声認識におけるエネルギー効率向上
- Authors: Yang Li, Yuan Shangguan, Yuhao Wang, Liangzhen Lai, Ernie Chang,
Changsheng Zhao, Yangyang Shi, Vikas Chandra
- Abstract要約: 本研究では,音声認識モデルにおける重みパラメータが,これらのモデル全体の消費電力に与える影響について検討する。
デバイス上での音声認識モデルの最適化を目的とした設計ガイドラインを開発した。
提案手法は,同様のモデル精度を維持しながら,最大47%のエネルギー消費削減を実現し,実時間係数を向上する。
- 参考スコア(独自算出の注目度): 20.9389257873637
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Power consumption plays an important role in on-device streaming speech
recognition, as it has a direct impact on the user experience. This study
delves into how weight parameters in speech recognition models influence the
overall power consumption of these models. We discovered that the impact of
weight parameters on power consumption varies, influenced by factors including
how often they are invoked and their placement in memory. Armed with this
insight, we developed design guidelines aimed at optimizing on-device speech
recognition models. These guidelines focus on minimizing power use without
substantially affecting accuracy. Our method, which employs targeted
compression based on the varying sensitivities of weight parameters,
demonstrates superior performance compared to state-of-the-art compression
methods. It achieves a reduction in energy usage of up to 47% while maintaining
similar model accuracy and improving the real-time factor.
- Abstract(参考訳): 消費電力は、ユーザー体験に直接影響を与えるため、デバイス上でのストリーミング音声認識において重要な役割を果たす。
本研究では,音声認識モデルにおける重みパラメータがモデル全体の消費電力に与える影響について検討する。
重みパラメータが消費電力に与える影響は, 発生頻度やメモリ上の配置などの影響を受け, 異なることが判明した。
この知見を活かし,デバイス上での音声認識モデルの最適化を目的とした設計指針を開発した。
これらのガイドラインは、精度を損なうことなく消費電力を最小化することに焦点を当てている。
重みパラメータの異なる感性に基づく目標圧縮を用いる手法は,最先端圧縮法と比較して優れた性能を示す。
同様のモデルの精度を維持し、リアルタイムの要因を改善しながら、エネルギー使用量を最大47%削減する。
関連論文リスト
- Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment [0.0]
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
論文 参考訳(メタデータ) (2024-05-02T05:09:07Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Folding Attention: Memory and Power Optimization for On-Device
Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。
ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。
本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文 参考訳(メタデータ) (2023-09-14T19:01:08Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - AdaSense: Adaptive Low-Power Sensing and Activity Recognition for
Wearable Devices [2.0119495998780925]
AdaSenseは、人間活動認識のためのセンシング、特徴抽出、分類を併用したフレームワークである。
このフレームワークは、精度とエネルギートレードオフのパレットフロンティアを表す構成を選択する。
提案手法は, センサの消費電力を69%削減し, 動作認識精度は1.5%以下である。
論文 参考訳(メタデータ) (2020-06-10T15:17:11Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。