論文の概要: Combining Compressions for Multiplicative Size Scaling on Natural
Language Tasks
- arxiv url: http://arxiv.org/abs/2208.09684v1
- Date: Sat, 20 Aug 2022 14:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 12:58:53.209512
- Title: Combining Compressions for Multiplicative Size Scaling on Natural
Language Tasks
- Title(参考訳): 自然言語タスクにおける乗算サイズスケーリングのための圧縮の組み合わせ
- Authors: Rajiv Movva, Jinhao Lei, Shayne Longpre, Ajay Gupta, Chris DuBois
- Abstract要約: 量子化、知識蒸留、マグニチュードプルーニングは、NLPにおけるニューラルネットワーク圧縮の最も一般的な方法の一つである。
6つのBERTアーキテクチャサイズと8つのGLUEタスクで、精度とモデルサイズとのトレードオフを比較します。
定量化と蒸留は、プルーニングよりも常に大きな利益をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 7.813460653362095
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Quantization, knowledge distillation, and magnitude pruning are among the
most popular methods for neural network compression in NLP. Independently,
these methods reduce model size and can accelerate inference, but their
relative benefit and combinatorial interactions have not been rigorously
studied. For each of the eight possible subsets of these techniques, we compare
accuracy vs. model size tradeoffs across six BERT architecture sizes and eight
GLUE tasks. We find that quantization and distillation consistently provide
greater benefit than pruning. Surprisingly, except for the pair of pruning and
quantization, using multiple methods together rarely yields diminishing
returns. Instead, we observe complementary and super-multiplicative reductions
to model size. Our work quantitatively demonstrates that combining compression
methods can synergistically reduce model size, and that practitioners should
prioritize (1) quantization, (2) knowledge distillation, and (3) pruning to
maximize accuracy vs. model size tradeoffs.
- Abstract(参考訳): 量子化、知識蒸留、マグニチュードプルーニングは、nlpにおけるニューラルネットワーク圧縮の最も一般的な方法である。
独立に、これらの手法はモデルのサイズを減らし、推論を加速するが、それらの相対的な利益と組合せ的相互作用は厳密に研究されていない。
これらの手法の可能な8つのサブセットについて、6つのBERTアーキテクチャサイズと8つのGLUEタスクの精度対モデルサイズトレードオフを比較する。
定量化と蒸留は、プルーニングよりも常に大きな利益をもたらす。
驚くべきことに、プルーニングと量子化のペアを除いて、複数のメソッドを一緒に使うとリターンが減少することが滅多にない。
代わりに、モデルサイズへの相補的および超乗法的還元を観察する。
本研究は,圧縮手法を組み合わせることで,相乗的にモデルサイズを削減できることを定量的に示し,(1)定量化,(2)知識蒸留,(3)モデルサイズトレードオフを最大化するためにプルーニングを優先すべきである。
関連論文リスト
- Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。
これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。
我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - CompactifAI: Extreme Compression of Large Language Models using Quantum-Inspired Tensor Networks [1.5199992713356987]
本稿では、量子インスパイアされたネットワークを用いた革新的な圧縮手法であるCompactifAIを紹介する。
我々の手法は万能であり、他の圧縮技術で実装することができる。
ベンチマークとして、CompactifAIと量子化の組み合わせにより、LlaMA 7Bの93%のメモリサイズを削減できることを示す。
論文 参考訳(メタデータ) (2024-01-25T11:45:21Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Structured Pruning Learns Compact and Accurate Models [28.54826400747667]
タスク固有の構造化プルーニング法CoFi(粗粒および細粒のプルーニング)を提案する。
CoFiは高度に並列化可能なワークを提供し、蒸留方法を精度とレイテンシの両方で一致させる。
GLUEおよびSQuADデータセットを用いた実験により、CoFiは10倍以上のスピードアップと小さな精度低下でモデルを生成することが示された。
論文 参考訳(メタデータ) (2022-04-01T13:09:56Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Block Pruning For Faster Transformers [89.70392810063247]
小型モデルと高速モデルの両方を対象としたブロックプルーニング手法を提案する。
このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。
論文 参考訳(メタデータ) (2021-09-10T12:46:32Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。