論文の概要: TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition
- arxiv url: http://arxiv.org/abs/2307.00526v2
- Date: Thu, 03 Oct 2024 23:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:42.715543
- Title: TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition
- Title(参考訳): テンソルGPT:テンソル・トレイン分解に基づく大規模言語モデルの効率的な圧縮
- Authors: Mingxue Xu, Yao Lei Xu, Danilo P. Mandic,
- Abstract要約: 行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
- 参考スコア(独自算出の注目度): 19.897367559948336
- License:
- Abstract: High-dimensional token embeddings underpin Large Language Models (LLMs), as they can capture subtle semantic information and significantly enhance the modelling of complex language patterns. However, this high dimensionality also introduces considerable model parameters and prohibitively high model storage and memory requirements, which is particularly unaffordable for low-end devices. Targeting no extra training data and insufficient computation cases, we propose a training-free model compression approach based on the Tensor-Train Decomposition (TTD), whereby each pre-trained token embedding is converted into a lower-dimensional Matrix Product State (MPS). We then comprehensively investigate the low-rank structures extracted by this approach, in terms of the compression ratio, the language task performance, and latency on a typical low-end device (i.e. Raspberry Pi). Taking GPT family models (i.e. GPT-2 and CerebrasGPT) as case studies, our approach theoretically results in $46.89\%$ fewer parameters of the entire model, with a compression ratio $39.38\times$ - $65.64\times$ for the embedding layers. With different hyperparameter choices, the model compressed with our approach can achieve a comparable language task performance to the original model with around $2.0\times$ embedding layer compression. This empirically proves the existence of low-rank structure in GPT family models, and demonstrates that about half of the parameters in the embedding layers are redundant.
- Abstract(参考訳): 高次元トークン埋め込みは、微妙な意味情報をキャプチャし、複雑な言語パターンのモデリングを大幅に強化できるため、Large Language Models(LLM)の基盤となる。
しかし、この高次元性には相当なモデルパラメータや、特にローエンドデバイスでは不都合な高モデルストレージとメモリ要求も伴う。
本研究では,事前学習したトークンの埋め込みを低次元のマトリックス製品状態(MPS)に変換するために,TTD(Tensor-Train Decomposition)に基づくトレーニングフリーモデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,圧縮率,言語タスク性能,典型的なローエンドデバイス(Raspberry Pi)のレイテンシの観点から総合的に検討する。
GPTファミリーモデル(GPT-2とCerebrasGPT)をケーススタディとして、理論的にはモデル全体のパラメータを46.89\%以下に減らし、圧縮比は39.38\times$ -65.64\times$とした。
我々のアプローチで圧縮されたモデルは、異なるハイパーパラメータ選択により、約$2.0\times$埋め込み層圧縮で元のモデルに匹敵する言語タスク性能を達成することができる。
このことは、GPTファミリーモデルにおける低ランク構造の存在を実証的に証明し、埋め込み層におけるパラメータの約半数が冗長であることを示す。
関連論文リスト
- Tensor Polynomial Additive Model [40.30621617188693]
TPAMは、加法モデルの固有の解釈可能性、透明な意思決定、意味のある特徴値の抽出を保存している。
精度を最大30%向上し、圧縮速度を最大5倍向上させ、良好な解釈性を維持することができる。
論文 参考訳(メタデータ) (2024-06-05T06:23:11Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Hierarchical mixtures of Gaussians for combined dimensionality reduction
and clustering [5.819751855626331]
このような2段階モデルの族が、ガウスの階層混合(HMoG)と呼ばれる単一の階層モデルにどのように結合できるかを示す。
HMoGは次元縮小とクラスタリングの両方を同時に捕捉し、その性能は確率関数によって閉形式で定量化される。
HMoGを合成データおよびRNAシークエンシングデータに適用し、2段階モデルの限界を超える方法を示す。
論文 参考訳(メタデータ) (2022-06-10T02:03:18Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Embedding Compression with Isotropic Iterative Quantization [40.567720430910725]
単語の連続表現は、ディープラーニングベースのNLPモデルの標準コンポーネントである。
埋め込みベクトルを2進数に圧縮するための等方的反復量子化(IIQ)手法を提案する。
論文 参考訳(メタデータ) (2020-01-11T20:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。