論文の概要: Breaking Down Power Barriers in On-Device Streaming ASR: Insights and Solutions
- arxiv url: http://arxiv.org/abs/2402.13076v2
- Date: Wed, 26 Feb 2025 05:33:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:52:49.343563
- Title: Breaking Down Power Barriers in On-Device Streaming ASR: Insights and Solutions
- Title(参考訳): オンデバイスストリーミングASRにおける電力バリアの破壊:洞察と解決策
- Authors: Yang Li, Yuan Shangguan, Yuhao Wang, Liangzhen Lai, Ernie Chang, Changsheng Zhao, Yangyang Shi, Vikas Chandra,
- Abstract要約: 重みパラメータが消費電力に与える影響は,起動頻度やメモリ割り当てなどの要因によって異なることがわかった。
本稿では,デバイス上での音声認識モデルを改善する設計原則を提案する。
- 参考スコア(独自算出の注目度): 20.180037657388763
- License:
- Abstract: Power consumption plays a crucial role in on-device streaming speech recognition, significantly influencing the user experience. This study explores how the configuration of weight parameters in speech recognition models affects their overall energy efficiency. We found that the influence of these parameters on power consumption varies depending on factors such as invocation frequency and memory allocation. Leveraging these insights, we propose design principles that enhance on-device speech recognition models by reducing power consumption with minimal impact on accuracy. Our approach, which adjusts model components based on their specific energy sensitivities, achieves up to 47% lower energy usage while preserving comparable model accuracy and improving real-time performance compared to leading methods.
- Abstract(参考訳): デバイス上でのストリーミング音声認識において消費電力は重要な役割を担い、ユーザエクスペリエンスに大きな影響を及ぼす。
本研究では,音声認識モデルにおける重みパラメータの設定が全体のエネルギー効率に与える影響について検討する。
その結果,これらのパラメータが消費電力に与える影響は,実行頻度やメモリ割り当てなどの要因によって異なることがわかった。
これらの知見を生かして,デバイス上での音声認識モデルを改善する設計原理を提案し,精度への影響を最小限に抑えて消費電力を削減する。
提案手法は, モデル成分のエネルギー感受性に基づいてモデル成分を調整し, 最大47%の低エネルギー化を実現し, 比較モデル精度を保ち, 先行手法と比較して実時間性能を向上する。
関連論文リスト
- Impact of ML Optimization Tactics on Greener Pre-Trained ML Models [46.78148962732881]
本研究の目的は,画像分類データセットと事前学習モデルの解析,最適化モデルと非最適化モデルを比較して推論効率を向上させること,最適化の経済的影響を評価することである。
画像分類におけるPyTorch最適化手法(動的量子化、トーチ・コンパイル、局所プルーニング、グローバルプルーニング)と42のHugging Faceモデルの影響を評価するための制御実験を行った。
動的量子化は推論時間とエネルギー消費の大幅な削減を示し、大規模システムに非常に適している。
論文 参考訳(メタデータ) (2024-09-19T16:23:03Z) - Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment [0.0]
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
論文 参考訳(メタデータ) (2024-05-02T05:09:07Z) - Boosting Inference Efficiency: Unleashing the Power of Parameter-Shared
Pre-trained Language Models [109.06052781040916]
本稿ではパラメータ共有言語モデルの推論効率を向上させる手法を提案する。
また、完全あるいは部分的に共有されたモデルにつながる単純な事前学習手法を提案する。
その結果,本手法が自己回帰的および自己符号化的PLMに与える影響が示された。
論文 参考訳(メタデータ) (2023-10-19T15:13:58Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Folding Attention: Memory and Power Optimization for On-Device
Transformer-based Streaming Speech Recognition [19.772585241974138]
音声認識モデルのストリーミングは通常、毎回限られた数のトークンを処理する。
ボトルネックは、マルチヘッドアテンションとフィードフォワードネットワークの線形プロジェクション層にある。
本稿では,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意法を提案する。
論文 参考訳(メタデータ) (2023-09-14T19:01:08Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - TAPLoss: A Temporal Acoustic Parameter Loss for Speech Enhancement [41.872384434583466]
周波数関連パラメータ,エネルギー・振幅関連パラメータ,スペクトルバランスパラメータ,時間的特徴の4種類の低レベル音響記述子の微分可能推定器を提案する。
音声強調における補助的目的としてTAPを加えることで、知覚的品質と知性を改善した音声が得られることを示す。
論文 参考訳(メタデータ) (2023-02-16T04:57:11Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - AdaSense: Adaptive Low-Power Sensing and Activity Recognition for
Wearable Devices [2.0119495998780925]
AdaSenseは、人間活動認識のためのセンシング、特徴抽出、分類を併用したフレームワークである。
このフレームワークは、精度とエネルギートレードオフのパレットフロンティアを表す構成を選択する。
提案手法は, センサの消費電力を69%削減し, 動作認識精度は1.5%以下である。
論文 参考訳(メタデータ) (2020-06-10T15:17:11Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。