論文の概要: Blockwise Compression of Transformer-based Models without Retraining
- arxiv url: http://arxiv.org/abs/2304.01483v2
- Date: Sun, 17 Sep 2023 22:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 00:19:19.105091
- Title: Blockwise Compression of Transformer-based Models without Retraining
- Title(参考訳): リトレーニングのない変圧器モデルにおけるブロックワイズ圧縮
- Authors: Gaochen Dong, Wei Chen
- Abstract要約: 本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
- 参考スコア(独自算出の注目度): 6.118476907408718
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models, exemplified by GPT-3, ChatGPT, and GPT-4, have
recently garnered considerable attention in both academia and industry due to
their promising performance in general language tasks. Nevertheless, these
models typically involve computationally encoding processes, and in some cases,
decoding processes as well, both of which are fundamentally large-scale matrix
multiplication. These operations bring the inevitable challenges of massive
computation resources and huge memory footprint, usually requiring at least
10^23 FLOPs and hundreds of gigabytes, respectively. A common method to address
this issue is to reduce the computational and memory requirements by applying
layerwise quantization to the transformer, replacing the usual fp32 data type
with a low-bit equivalent. Unfortunately, this method often leads to decreased
model accuracy and necessitates time-consuming retraining. Such retraining not
only requires fine-tuning skills but also substantial computational resources,
posing challenges for users. To specifically tackle these issues, we propose
BCT, a framework of blockwise compression for transformers without retraining,
aiming to facilitate model deployment. Unlike layerwise compression methods,
BCT achieves finer compression of the entire transformer by operating
blockwise. This method mitigates data distribution deviation caused by
quantization, eliminating the requirement for retraining. BCT effectively
compresses all components of the model, including but not limited to the
embedding, matrix multiplication, GELU, Softmax, layer normalization, and
intermediate results. In a case study, an efficient model is compressed by BCT
achieving up to 7.988x compression. Subsequently, we also evaluate it on
several General Language Understanding Evaluation (GLUE) datasets.
- Abstract(参考訳): GPT-3、ChatGPT、GPT-4で実証されたトランスフォーマーベースのモデルは、最近、一般的な言語タスクにおける有望な性能のために、学術と産業の両方でかなりの注目を集めている。
しかしながら、これらのモデルは典型的には計算的符号化プロセスを含み、場合によってはデコードプロセスも含む。
これらの操作は巨大な計算資源と巨大なメモリフットプリントという必然的な課題をもたらし、それぞれ10^23 FLOPと数百ギガバイト以上を必要とする。
この問題に対処する一般的な方法は、トランスフォーマーに層状量子化を適用し、通常のfp32データ型を低ビット等価に置き換えることで、計算とメモリの要求を減らすことである。
残念なことに、この手法はしばしばモデルの精度を低下させ、時間を要する再トレーニングを必要とします。
このようなリトレーニングは、微調整スキルだけでなく、かなりの計算資源を必要とする。
これらの問題に特に対処するために,モデル展開を容易にすることを目的とした,変換器のブロックワイズ圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
この方法は量子化によるデータ分布偏差を緩和し、再トレーニングの必要をなくす。
bctは、埋め込み、行列乗算、ゲル、ソフトマックス、層正規化、中間結果を含む、モデルのすべてのコンポーネントを効果的に圧縮する。
ケーススタディでは、BCTにより最大7.988倍の圧縮が可能な効率的なモデルが圧縮される。
その後,いくつかの一般言語理解評価(GLUE)データセット上で評価を行った。
関連論文リスト
- Tangent Model Composition for Ensembling and Continual Fine-tuning [82.07753773582164]
タンジェントモデル合成(Tangent Model composition, TMC)は、事前訓練された点を中心に微調整されたコンポーネントモデルを独立に結合する手法である。
TMCは、推論コストの2.5倍から10倍の削減で、非線形微調整モデルの精度を4.2%向上させる。
論文 参考訳(メタデータ) (2023-07-16T17:45:33Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Modular Transformers: Compressing Transformers into Modularized Layers
for Flexible Efficient Inference [83.01121484432801]
本稿では,フレキシブルシーケンス・ツー・シーケンス・モデル圧縮のためのモジュール化エンコーダ・デコーダ・フレームワークであるModular Transformersを紹介する。
単一のトレーニングフェーズの後、Modular Transformerは1.1xから6xまでのフレキシブルな圧縮比を、相対的な相対的な性能低下の少ない状態で達成することができる。
論文 参考訳(メタデータ) (2023-06-04T15:26:28Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - Block-wise Bit-Compression of Transformer-based Models [9.77519365079468]
再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-16T09:53:57Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.584748347223698]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Compressing Pre-trained Transformers via Low-Bit NxM Sparsity for
Natural Language Understanding [20.75335227098455]
大規模な事前学習型トランスフォーマーネットワークは、多くの自然言語理解タスクにおいて劇的に改善されている。
NM半構造スパーシリティと低精度整数計算の両方をサポートする新しいハードウェアは、モデル提供効率を高めるための有望な解決策である。
本研究では,同時スペーシフィケーションと量子化を行うフレキシブル圧縮フレームワークNxMiFormerを提案する。
論文 参考訳(メタデータ) (2022-06-30T04:33:50Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。