論文の概要: TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition
- arxiv url: http://arxiv.org/abs/2307.00526v1
- Date: Sun, 2 Jul 2023 09:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:37:08.192905
- Title: TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition
- Title(参考訳): テンソルGPT:テンソル-トレイン分解に基づくLLMの埋め込み層の効率的な圧縮
- Authors: Mingxue Xu, Yao Lei Xu, Danilo P. Mandic
- Abstract要約: 本研究は, Matrix-Train Decomposition (TTD) に基づくアプローチを提案する。
各トークンの埋め込みは、分散的に効率的に計算できる製品状態(MPS)として扱われる。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 22.84674270619026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional token embeddings underpin Large Language Models (LLMs), as
they can capture subtle semantic information and significantly enhance the
modelling of complex language patterns. However, the associated high
dimensionality also introduces considerable model parameters, and a
prohibitively high model storage. To address this issue, this work proposes an
approach based on the Tensor-Train Decomposition (TTD), where each token
embedding is treated as a Matrix Product State (MPS) that can be efficiently
computed in a distributed manner. The experimental results on GPT-2 demonstrate
that, through our approach, the embedding layer can be compressed by a factor
of up to 38.40 times, and when the compression factor is 3.31 times, even
produced a better performance than the original GPT-2 model.
- Abstract(参考訳): 高次元トークン埋め込みは、微妙な意味情報をキャプチャし、複雑な言語パターンのモデリングを大幅に強化できるため、Large Language Models(LLM)の基盤となる。
しかし、関連する高次元はまた、かなりのモデルパラメータと、非常に高いモデルストレージをもたらす。
この問題に対処するために,各トークンの埋め込みを,分散的に効率的に計算可能なマトリックス製品状態(MPS)として扱うTTD(Tensor-Train Decomposition)に基づくアプローチを提案する。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
関連論文リスト
- Tensor Polynomial Additive Model [40.30621617188693]
TPAMは、加法モデルの固有の解釈可能性、透明な意思決定、意味のある特徴値の抽出を保存している。
精度を最大30%向上し、圧縮速度を最大5倍向上させ、良好な解釈性を維持することができる。
論文 参考訳(メタデータ) (2024-06-05T06:23:11Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Hierarchical mixtures of Gaussians for combined dimensionality reduction
and clustering [5.819751855626331]
このような2段階モデルの族が、ガウスの階層混合(HMoG)と呼ばれる単一の階層モデルにどのように結合できるかを示す。
HMoGは次元縮小とクラスタリングの両方を同時に捕捉し、その性能は確率関数によって閉形式で定量化される。
HMoGを合成データおよびRNAシークエンシングデータに適用し、2段階モデルの限界を超える方法を示す。
論文 参考訳(メタデータ) (2022-06-10T02:03:18Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z) - Embedding Compression with Isotropic Iterative Quantization [40.567720430910725]
単語の連続表現は、ディープラーニングベースのNLPモデルの標準コンポーネントである。
埋め込みベクトルを2進数に圧縮するための等方的反復量子化(IIQ)手法を提案する。
論文 参考訳(メタデータ) (2020-01-11T20:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。