論文の概要: Effective and Efficient Mixed Precision Quantization of Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2501.03643v1
- Date: Tue, 07 Jan 2025 09:21:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-08 15:46:26.497459
- Title: Effective and Efficient Mixed Precision Quantization of Speech Foundation Models
- Title(参考訳): 音声基礎モデルの有効かつ効率的な混合精度量子化
- Authors: Haoning Xu, Zhaoqing Li, Zengrui Jin, Huimeng Wang, Youjun Chen, Guinan Li, Mengzhe Geng, Shujie Hu, Jiajun Deng, Xunying Liu,
- Abstract要約: 本稿では,音声基礎モデルに対する新しい混合精度量子化手法を提案する。
微調整wav2vec2.0-baseとHuBERT-largeモデルを用いたLibriSpeechデータセットの実験を行った。
- 参考スコア(独自算出の注目度): 32.529198141470395
- License:
- Abstract: This paper presents a novel mixed-precision quantization approach for speech foundation models that tightly integrates mixed-precision learning and quantized model parameter estimation into one single model compression stage. Experiments conducted on LibriSpeech dataset with fine-tuned wav2vec2.0-base and HuBERT-large models suggest the resulting mixed-precision quantized models increased the lossless compression ratio by factors up to 1.7x and 1.9x over the respective uniform-precision and two-stage mixed-precision quantized baselines that perform precision learning and model parameters quantization in separate and disjointed stages, while incurring no statistically word error rate (WER) increase over the 32-bit full-precision models. The system compression time of wav2vec2.0-base and HuBERT-large models is reduced by up to 1.9 and 1.5 times over the two-stage mixed-precision baselines, while both produce lower WERs. The best-performing 3.5-bit mixed-precision quantized HuBERT-large model produces a lossless compression ratio of 8.6x over the 32-bit full-precision system.
- Abstract(参考訳): 本稿では、混合精度学習と量子化モデルパラメータ推定を1つの単一モデル圧縮段階に緊密に統合する、音声基礎モデルの新しい混合精度量子化手法を提案する。
LibriSpeechデータセットを微調整したwav2vec2.0-baseとHuBERT-largeモデルを用いて行った実験は、結果の混合精度量子化モデルは、各一様精度と2段階の混合精度量子化ベースラインに対して最大1.7xと1.9xの損失レス圧縮比を増大させ、精度学習とモデルパラメータを別段に量子化する一方で、32ビットの完全精度モデルよりも統計的に単語誤り率(WER)が増加しないことを示唆している。
wav2vec2.0-base と HuBERT-large のシステムの圧縮時間は、2段混合精度ベースラインで最大 1.9 と 1.5 倍削減され、どちらも低い WER を生成する。
3.5ビットの混合精度量子化HuBERT-largeモデルは、32ビットの完全精度システムに対して8.6倍のロスレス圧縮比を生成する。
関連論文リスト
- Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - On the Calibration of Pre-trained Language Models using Mixup Guided by
Area Under the Margin and Saliency [47.90235939359225]
モデルキャリブレーションをさらに改善する事前学習型言語モデルのための新しい混合戦略を提案する。
本手法は,ドメイン内およびドメイン外テストサンプルの強いベースラインと比較して,最小のキャリブレーション誤差を実現する。
論文 参考訳(メタデータ) (2022-03-14T23:45:08Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - High correlated variables creator machine: Prediction of the compressive
strength of concrete [0.0]
超音波パルス速度(UPV)とリバウンド数(RN)を用いてコンクリートの圧縮強度を予測する新しいハイブリッドモデルを提案する。
高相関変数生成機械(HVCM)は、出力との相関性の良い新しい変数を作成し、予測モデルを改善するために用いられる。
その結果, HCVCM-ANFISはコンクリートの圧縮強度を他のどのモデルよりも良く予測できることがわかった。
論文 参考訳(メタデータ) (2020-09-11T15:06:05Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。