論文の概要: Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment
- arxiv url: http://arxiv.org/abs/2405.01004v1
- Date: Thu, 2 May 2024 05:09:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-03 17:54:29.152593
- Title: Deep Learning Models in Speech Recognition: Measuring GPU Energy Consumption, Impact of Noise and Model Quantization for Edge Deployment
- Title(参考訳): 音声認識におけるディープラーニングモデル:GPUエネルギー消費の測定、ノイズの影響、エッジ展開のためのモデル量子化
- Authors: Aditya Chakravarty,
- Abstract要約: 本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent transformer-based ASR models have achieved word-error rates (WER) below 4%, surpassing human annotator accuracy, yet they demand extensive server resources, contributing to significant carbon footprints. The traditional server-based architecture of ASR also presents privacy concerns, alongside reliability and latency issues due to network dependencies. In contrast, on-device (edge) ASR enhances privacy, boosts performance, and promotes sustainability by effectively balancing energy use and accuracy for specific applications. This study examines the effects of quantization, memory demands, and energy consumption on the performance of various ASR model inference on the NVIDIA Jetson Orin Nano. By analyzing WER and transcription speed across models using FP32, FP16, and INT8 quantization on clean and noisy datasets, we highlight the crucial trade-offs between accuracy, speeds, quantization, energy efficiency, and memory needs. We found that changing precision from fp32 to fp16 halves the energy consumption for audio transcription across different models, with minimal performance degradation. A larger model size and number of parameters neither guarantees better resilience to noise, nor predicts the energy consumption for a given transcription load. These, along with several other findings offer novel insights for optimizing ASR systems within energy- and memory-limited environments, crucial for the development of efficient on-device ASR solutions. The code and input data needed to reproduce the results in this article are open sourced are available on [https://github.com/zzadiues3338/ASR-energy-jetson].
- Abstract(参考訳): 最近のトランスフォーマーベースのASRモデルは、人間のアノテータの精度を上回り、ワードエラー率(WER)を4%以下にしている。
ASRの従来のサーバベースのアーキテクチャは、ネットワーク依存による信頼性とレイテンシの問題とともに、プライバシの懸念ももたらしている。
対照的に、オンデバイス(エッジ)のASRは、プライバシを強化し、パフォーマンスを向上し、特定のアプリケーションのエネルギー使用量と精度を効果的にバランスさせることで、サステナビリティを向上する。
本研究では, NVIDIA Jetson Orin Nanoにおける各種ASRモデル推論の性能に及ぼす量子化, メモリ要求, エネルギー消費の影響について検討した。
クリーンでノイズの多いデータセット上で、FP32、FP16、INT8の量子化を用いてモデル間でのWERと転写速度を解析することにより、精度、速度、量子化、エネルギー効率、メモリニーズの間の重要なトレードオフを明らかにする。
その結果、fp32からfp16への精度変更は、異なるモデル間での音声書き起こしのエネルギー消費量を半減させ、性能劣化を最小限に抑えることができた。
より大きなモデルサイズとパラメータの数では、ノイズに対する弾力性は保証されず、与えられた転写負荷のエネルギー消費も予測できない。
これらは、エネルギーとメモリに制限のある環境でASRシステムを最適化するための新しい洞察を与え、デバイス上での効率的なASRソリューションの開発に不可欠である。
この記事で結果を再現するのに必要なコードと入力データは、[https://github.com/zzadiues3338/ASR-energy-jetson]で公開されている。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Fine-Tuning Surrogate Gradient Learning for Optimal Hardware Performance
in Spiking Neural Networks [1.52292571922932]
スパイキングニューラルネットワーク(SNN)は、ハードウェアで慎重に活用することで、膨大なエネルギー効率の恩恵をもたらすことができる。
この研究は、トレーニングがハードウェアのパフォーマンスに与える影響に関する新たな洞察を明らかにします。
論文 参考訳(メタデータ) (2024-02-09T06:38:12Z) - Full-Stack Optimization for CAM-Only DNN Inference [2.0837295518447934]
本稿では,3次重み付けニューラルネットワークと連想プロセッサのアルゴリズム最適化の組み合わせについて検討する。
演算強度を低減し,APの畳み込みを最適化する新しいコンパイルフローを提案する。
本研究では,イメージネット上でのResNet-18推論のエネルギー効率を,クロスバーメモリアクセラレータと比較して7.5倍向上させる。
論文 参考訳(メタデータ) (2024-01-23T10:27:38Z) - Design Space Exploration of Low-Bit Quantized Neural Networks for Visual
Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。
最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。
これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。
完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2023-12-14T15:24:42Z) - Multiagent Reinforcement Learning with an Attention Mechanism for
Improving Energy Efficiency in LoRa Networks [52.96907334080273]
ネットワーク規模が大きくなるにつれて、パケット衝突によるLoRaネットワークのエネルギー効率は急激に低下する。
マルチエージェント強化学習(MALoRa)に基づく伝送パラメータ割り当てアルゴリズムを提案する。
シミュレーションの結果,MALoRaはベースラインアルゴリズムと比較してシステムEEを著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-09-16T11:37:23Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - LEAF + AIO: Edge-Assisted Energy-Aware Object Detection for Mobile
Augmented Reality [77.00418462388525]
モバイル拡張現実(MAR)アプリケーションは非常にエネルギーを消費する。
我々は、MARデバイスが動的に構成を変更することができるエッジベースのエネルギー対応MARシステムを設計する。
提案した動的MAR構成適応は、複数のMARクライアントのフレーム当たりのエネルギー消費を最小限に抑えることができる。
論文 参考訳(メタデータ) (2022-05-27T06:11:50Z) - Heterogeneous Reservoir Computing Models for Persian Speech Recognition [0.0]
Reservoir Computing Model (RC)モデルは、トレーニングに安価であること、パラメータが大幅に少なく、創発的なハードウェア技術と互換性があることが証明されている。
異なるスケールで時間的コンテキストをキャプチャする入力の非線形変換を生成するために、異種単層および多層ESNを提案する。
論文 参考訳(メタデータ) (2022-05-25T09:15:15Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。