論文の概要: MoDeGPT: Modular Decomposition for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2408.09632v2
- Date: Tue, 20 Aug 2024 05:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 18:39:27.959136
- Title: MoDeGPT: Modular Decomposition for Large Language Model Compression
- Title(参考訳): MoDeGPT: 大規模言語モデル圧縮のためのモジュール分解
- Authors: Chi-Heng Lin, Shangqian Gao, James Seale Smith, Abhishek Patel, Shikhar Tuli, Yilin Shen, Hongxia Jin, Yen-Chang Hsu,
- Abstract要約: 本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
- 参考スコア(独自算出の注目度): 59.361006801465344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have reshaped the landscape of artificial intelligence by demonstrating exceptional performance across various tasks. However, substantial computational requirements make their deployment challenging on devices with limited resources. Recently, compression methods using low-rank matrix techniques have shown promise, yet these often lead to degraded accuracy or introduce significant overhead in parameters and inference latency. This paper introduces \textbf{Mo}dular \textbf{De}composition (MoDeGPT), a novel structured compression framework that does not need recovery fine-tuning while resolving the above drawbacks. MoDeGPT partitions the Transformer block into modules comprised of matrix pairs and reduces the hidden dimensions via reconstructing the module-level outputs. MoDeGPT is developed based on a theoretical framework that utilizes three well-established matrix decomposition algorithms -- Nystr\"om approximation, CR decomposition, and SVD -- and applies them to our redefined transformer modules. Our comprehensive experiments show MoDeGPT, without backward propagation, matches or surpasses previous structured compression methods that rely on gradient information, and saves 98% of compute costs on compressing a 13B model. On \textsc{Llama}-2/3 and OPT models, MoDeGPT maintains 90-95% zero-shot performance with 25-30% compression rates. Moreover, the compression can be done on a single GPU within a few hours and increases the inference throughput by up to 46%.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すことによって、人工知能の景観を再構築した。
しかし、かなりの計算量の要求は、限られたリソースを持つデバイスへの展開を困難にしている。
近年,低ランク行列を用いた圧縮手法が期待されているが,精度が低下したり,パラメータや推論遅延の大幅なオーバーヘッドが発生することがしばしばある。
本稿では, 上記の欠点を解消しつつ, 復元微調整を必要としない新しい構造化圧縮フレームワークである \textbf{Mo}dular \textbf{De}composition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、モジュールレベルの出力を再構築することで隠れた次元を縮小する。
MoDeGPTは、3つの確立された行列分解アルゴリズム(Nystr\"om approximation, CR decomposition, SVD)を利用する理論的枠組みに基づいて開発され、再定義されたトランスモジュールに適用する。
総合的な実験により, 後方伝播のないMoDeGPTは, 勾配情報に依存した従来の構造化圧縮手法と一致し, 計算コストの98%を節約できることがわかった。
textsc{Llama}-2/3およびOPTモデルでは、MoDeGPTは圧縮率25-30%で90-95%のゼロショット性能を維持している。
さらに、圧縮は1つのGPU上で数時間以内に行うことができ、推論スループットを最大46%向上させることができる。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Demystifying the Compression of Mixture-of-Experts Through a Unified Framework [17.436189502801163]
専門家の混合(MoE)アプローチは、専門家のサブセットのみを動的に選択し、活性化することによってこの問題に対処する。
MoEは潜在的な冗長性(パラメータなど)と余分なコスト(通信オーバーヘッドなど)を導入している。
まずこのギャップを,主流圧縮メソッドをシームレスに統合するだけでなく,MoE圧縮を体系的に理解する上でも有効である,最先端の統一フレームワークで埋める。
論文 参考訳(メタデータ) (2024-06-04T17:18:40Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Spatiotemporal Entropy Model is All You Need for Learned Video
Compression [9.227865598115024]
生のピクセルフレーム(残像ではなく)を圧縮する枠組みを提案する。
エントロピーモデルはピクセルレベルではなく潜在空間における時間的冗長性を推定するために用いられる。
実験の結果,提案手法は最先端(SOTA)性能より優れていた。
論文 参考訳(メタデータ) (2021-04-13T10:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。