論文の概要: Edge-ASR: Towards Low-Bit Quantization of Automatic Speech Recognition Models
- arxiv url: http://arxiv.org/abs/2507.07877v1
- Date: Thu, 10 Jul 2025 16:00:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.478333
- Title: Edge-ASR: Towards Low-Bit Quantization of Automatic Speech Recognition Models
- Title(参考訳): Edge-ASR: 音声認識モデルの低ビット量子化を目指して
- Authors: Chen Feng, Yicheng Lin, Shaojie Zhuo, Chenzheng Su, Ramchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Xiaopeng Zhang,
- Abstract要約: 量子化、特にPTQ(Post-Training Quantization)は、再トレーニングせずにモデルサイズと推論コストを削減する効果的な方法を提供する。
本稿では、WhisperとMoonshineの2つのエッジASRモデルファミリーに適用した8つの最先端(SOTA)PTQ手法のベンチマークを示す。
この結果から,3ビット量子化でも高容量モデルで実現可能であることを示す。
- 参考スコア(独自算出の注目度): 8.589209709453026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Automatic Speech Recognition (ASR) have demonstrated remarkable accuracy and robustness in diverse audio applications, such as live transcription and voice command processing. However, deploying these models on resource constrained edge devices (e.g., IoT device, wearables) still presents substantial challenges due to strict limits on memory, compute and power. Quantization, particularly Post-Training Quantization (PTQ), offers an effective way to reduce model size and inference cost without retraining. Despite its importance, the performance implications of various advanced quantization methods and bit-width configurations on ASR models remain unclear. In this work, we present a comprehensive benchmark of eight state-of-the-art (SOTA) PTQ methods applied to two leading edge-ASR model families, Whisper and Moonshine. We systematically evaluate model performances (i.e., accuracy, memory I/O and bit operations) across seven diverse datasets from the open ASR leaderboard, analyzing the impact of quantization and various configurations on both weights and activations. Built on an extension of the LLM compression toolkit, our framework integrates edge-ASR models, diverse advanced quantization algorithms, a unified calibration and evaluation data pipeline, and detailed analysis tools. Our results characterize the trade-offs between efficiency and accuracy, demonstrating that even 3-bit quantization can succeed on high capacity models when using advanced PTQ techniques. These findings provide valuable insights for optimizing ASR models on low-power, always-on edge devices.
- Abstract(参考訳): 近年のASR(Automatic Speech Recognition)の進歩は、ライブ文字起こしや音声コマンド処理などの多様なオーディオアプリケーションにおいて、顕著な精度と堅牢性を示している。
しかしながら、リソース制約のあるエッジデバイス(IoTデバイス、ウェアラブルなど)にこれらのモデルをデプロイしても、メモリ、計算、電力の制限が厳しいため、大きな課題が残る。
量子化、特にPTQ(Post-Training Quantization)は、再トレーニングせずにモデルサイズと推論コストを削減する効果的な方法を提供する。
その重要性にもかかわらず、様々な高度な量子化法とASRモデルにおけるビット幅構成の性能への影響は未だ不明である。
本研究では,最先端ASRモデルファミリーであるWhisperとMoonshineに応用した8種類のSOTA(State-of-the-art)PTQ手法の総合ベンチマークを示す。
オープンなASRリーダーボードから7つの多様なデータセットのモデル性能(精度、メモリI/O、ビット演算)を体系的に評価し、量子化と様々な構成が重みとアクティベーションに与える影響を分析した。
LLM圧縮ツールキットを拡張し,エッジASRモデル,多種多様な量子化アルゴリズム,統一キャリブレーションと評価データパイプライン,詳細な解析ツールを統合した。
提案手法は効率と精度のトレードオフを特徴とし,3ビット量子化でも高容量モデルで実現可能であることを示した。
これらの発見は、低消費電力で常時オンのエッジデバイス上でのASRモデルを最適化するための貴重な洞察を提供する。
関連論文リスト
- Quantizing Small-Scale State-Space Models for Edge AI [0.4941855521192951]
ステートスペースモデル(SSM)は、最近、長距離依存を効率的にモデル化する能力について、ディープラーニングで注目を集めている。
本稿では,タスク性能を維持しながら,メモリと計算コストの削減に焦点をあてて,小型SSMにおける量子化の効果を分析する。
論文 参考訳(メタデータ) (2025-06-14T12:43:47Z) - Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels [5.868949328814509]
モデル量子化は、低ビットパラメータ表現によるエッジデバイスへのディープニューラルネットワークの効率的な展開を可能にする。
既存のマシン・アンラーニング(MU)手法は量子化されたネットワークにおける2つの基本的な制限に対処できない。
本稿では,量子化モデルのための学習フレームワークQ-MULを提案する。
論文 参考訳(メタデータ) (2025-03-18T05:22:13Z) - Sometimes Painful but Certainly Promising: Feasibility and Trade-offs of Language Model Inference at the Edge [3.1471494780647795]
最近の傾向はコンパクトモデル(典型的には量子化のような技術によって100億のパラメータが許容される)に注目が集まっていることを示している。
このシフトは、エッジデバイス上でのLMの道を開き、プライバシーの強化、レイテンシの低減、データ主権の向上といった潜在的なメリットを提供する。
本稿では,CPUベースおよびGPUアクセラレーションエッジデバイスにおけるジェネレーティブLM推論の総合評価を行う。
論文 参考訳(メタデータ) (2025-03-12T07:01:34Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - A Model for Every User and Budget: Label-Free and Personalized
Mixed-Precision Quantization [23.818922559567994]
ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。
MyQASRは、微調整なしで任意のメモリ要件の下で、多様なユーザ向けに調整された量子化スキームを生成する。
大規模なASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
論文 参考訳(メタデータ) (2023-07-24T10:03:28Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。