論文の概要: Blockwise Compression of Transformer-based Models without Retraining
- arxiv url: http://arxiv.org/abs/2304.01483v1
- Date: Tue, 4 Apr 2023 02:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:30:28.113996
- Title: Blockwise Compression of Transformer-based Models without Retraining
- Title(参考訳): リトレーニングのない変圧器モデルにおけるブロックワイズ圧縮
- Authors: Gaochen Dong, Wei Chen
- Abstract要約: 本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
BCTは、埋め込み、行列乗算、GELU、ソフトマックス、層正規化、および全ての中間結果を含む変換器全体のよりきめ細かい圧縮を実現する。
- 参考スコア(独自算出の注目度): 9.77519365079468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models, represented by GPT-3, ChatGPT, and GPT-4, have
recently attracted increasing interest, research enthusiasm, and business
demand. However, their massive computation resources and huge memory footprint
are inevitable challenges. To tackle this issue, we propose BCT, a framework of
blockwise compression for transformers without retraining, to lower deployment
thresholds. BCT achieves more fine-grained compression of the whole
transformer, including embedding, matrix multiplication, GELU, Softmax, layer
normalization, and all the intermediate results. As a case, we compress an
efficient model with BCT and evaluate it on several General Language
Understanding Evaluation (GLUE) datasets. The results show that BCT can achieve
a less than 0.90% accuracy drop in most tasks.
- Abstract(参考訳): GPT-3、ChatGPT、GPT-4に代表されるトランスフォーマーベースのモデルは、近年、関心の高まり、研究熱意、ビジネス需要を惹きつけている。
しかし、その膨大な計算リソースと巨大なメモリフットプリントは避けられない課題である。
そこで本研究では,再トレーニングを行わない変圧器のブロックワイズ圧縮の枠組みであるbctを提案する。
BCTは、埋め込み、行列乗算、GELU、ソフトマックス、層正規化、および全ての中間結果を含む変換器全体のよりきめ細かい圧縮を実現する。
実例として,BCTを用いて効率的なモデルを圧縮し,汎用言語理解評価(GLUE)データセット上で評価する。
その結果,ほとんどのタスクにおいてBCTは0.90%未満の精度低下を達成できることがわかった。
関連論文リスト
- Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Block-wise Bit-Compression of Transformer-based Models [9.77519365079468]
再学習を伴わない変圧器のブロックワイドビット圧縮法であるBBCTを提案する。
GLUE(General Language Understanding Evaluation)のベンチマークテストの結果,ほとんどのタスクにおいて,BBCTは1%未満の精度低下を達成できることがわかった。
論文 参考訳(メタデータ) (2023-03-16T09:53:57Z) - Knowledge Distillation in Vision Transformers: A Critical Review [6.508088032296086]
ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンス向上を実証した。
モデル圧縮は、最近、潜在的治療としてかなりの研究の注目を集めている。
本稿では、VTモデルの効率的な圧縮のためのKDに基づく様々なアプローチについて論じる。
論文 参考訳(メタデータ) (2023-02-04T06:30:57Z) - Prune Once for All: Sparse Pre-Trained Language Models [0.6063525456640462]
そこで本研究では,ウェイトプルーニングとモデル蒸留を統合したスパース事前訓練型トランスフォーマー言語モデルの学習手法を提案する。
これらのスパース事前学習モデルは、疎度パターンを維持しながら、幅広いタスクの学習を伝達するために使用することができる。
圧縮されたスパース事前学習モデルが、その知識を、最小限の精度で5つの下流自然言語タスクに伝達する方法を示す。
論文 参考訳(メタデータ) (2021-11-10T15:52:40Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。