論文の概要: Sparsification via Compressed Sensing for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2102.04932v1
- Date: Tue, 9 Feb 2021 16:41:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 15:19:36.220866
- Title: Sparsification via Compressed Sensing for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための圧縮センシングによるスパーシフィケーション
- Authors: Kai Zhen (1 and 2), Hieu Duy Nguyen (2), Feng-Ju Chang (2), Athanasios
Mouchtaris (2), and Ariya Rastrow (2). ((1) Indiana University Bloomington,
(2) Alexa Machine Learning, Amazon, USA)
- Abstract要約: 大規模機械学習アプリケーションはモデル量子化と圧縮を必要とする。
本稿では,これらの問題に効果的に対応するために,圧縮センシングベースプルーニング(CSP)手法を提案する。
CSPは文学における既存のアプローチよりも一貫して優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to achieve high accuracy for machine learning (ML) applications, it
is essential to employ models with a large number of parameters. Certain
applications, such as Automatic Speech Recognition (ASR), however, require
real-time interactions with users, hence compelling the model to have as low
latency as possible. Deploying large scale ML applications thus necessitates
model quantization and compression, especially when running ML models on
resource constrained devices. For example, by forcing some of the model weight
values into zero, it is possible to apply zero-weight compression, which
reduces both the model size and model reading time from the memory. In the
literature, such methods are referred to as sparse pruning. The fundamental
questions are when and which weights should be forced to zero, i.e. be pruned.
In this work, we propose a compressed sensing based pruning (CSP) approach to
effectively address those questions. By reformulating sparse pruning as a
sparsity inducing and compression-error reduction dual problem, we introduce
the classic compressed sensing process into the ML model training process.
Using ASR task as an example, we show that CSP consistently outperforms
existing approaches in the literature.
- Abstract(参考訳): 機械学習(ML)アプリケーションのための高精度を達成するためには、多数のパラメータを持つモデルを採用することが不可欠です。
しかし、自動音声認識(asr)のような特定のアプリケーションでは、ユーザとのリアルタイムインタラクションが必要であるため、モデルに可能な限り低レイテンシーを持たせている。
大規模なMLアプリケーションをデプロイするには、特にリソース制約のあるデバイス上でMLモデルを実行する場合、モデル量子化と圧縮が必要である。
例えば、モデルの重み値の一部をゼロにすることで、ゼロウェイト圧縮を適用することができ、モデルサイズとモデル読み込み時間をメモリから削減することができる。
文献では、そのような方法はスパースプルーニングと呼ばれています。
基本的な質問は、いつ、どの重みを0に強制すべきかである。
刈り取られる。
本研究では,これらの問題に効果的に対処するための圧縮センシングベースプルーニング(CSP)手法を提案する。
スパースプルーニングをスパース性誘発と圧縮エラー低減の二重問題として再構成することで、従来の圧縮センシングプロセスをmlモデルトレーニングプロセスに導入する。
ASRタスクを例として、CSPが文学における既存のアプローチを一貫して上回ることを示す。
関連論文リスト
- SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z) - Deep learning model compression using network sensitivity and gradients [3.52359746858894]
非リトレーニング条件とリトレーニング条件の両方に対するモデル圧縮アルゴリズムを提案する。
まず,ネットワークパラメータの感度を用いた深層学習モデルの圧縮のためのBin & Quantアルゴリズムを提案する。
第2のケースでは、新しい勾配重み付きk平均クラスタリングアルゴリズム(GWK)を提案する。
論文 参考訳(メタデータ) (2022-10-11T03:02:40Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Online Model Compression for Federated Learning with Large Models [8.48327410170884]
Online Model Compression (OMC) は、モデルパラメータを圧縮形式で格納し、必要に応じて圧縮するフレームワークである。
OMCは、モデルパラメータのメモリ使用量と通信コストを最大59%削減し、完全精度のトレーニングと比較すると、同等の精度とトレーニング速度が得られる。
論文 参考訳(メタデータ) (2022-05-06T22:43:03Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Automated Model Compression by Jointly Applied Pruning and Quantization [14.824593320721407]
従来のディープ圧縮フレームワークでは、反復的にネットワークプルーニングと量子化を行うことで、モデルのサイズと計算コストを削減できる。
ネットワークプルーニングと量子化を統一的な共同圧縮問題として統合し,AutoMLを用いて自動的に解き出すことで,この問題に対処する。
共同適用プルーニングと量子化(AJPQ)による自動モデル圧縮を提案する。
論文 参考訳(メタデータ) (2020-11-12T07:06:29Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。