論文の概要: TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition
- arxiv url: http://arxiv.org/abs/2307.00526v1
- Date: Sun, 2 Jul 2023 09:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:37:08.192905
- Title: TensorGPT: Efficient Compression of the Embedding Layer in LLMs based on
the Tensor-Train Decomposition
- Title(参考訳): テンソルGPT:テンソル-トレイン分解に基づくLLMの埋め込み層の効率的な圧縮
- Authors: Mingxue Xu, Yao Lei Xu, Danilo P. Mandic
- Abstract要約: 本研究は, Matrix-Train Decomposition (TTD) に基づくアプローチを提案する。
各トークンの埋め込みは、分散的に効率的に計算できる製品状態(MPS)として扱われる。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 22.84674270619026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-dimensional token embeddings underpin Large Language Models (LLMs), as
they can capture subtle semantic information and significantly enhance the
modelling of complex language patterns. However, the associated high
dimensionality also introduces considerable model parameters, and a
prohibitively high model storage. To address this issue, this work proposes an
approach based on the Tensor-Train Decomposition (TTD), where each token
embedding is treated as a Matrix Product State (MPS) that can be efficiently
computed in a distributed manner. The experimental results on GPT-2 demonstrate
that, through our approach, the embedding layer can be compressed by a factor
of up to 38.40 times, and when the compression factor is 3.31 times, even
produced a better performance than the original GPT-2 model.
- Abstract(参考訳): 高次元トークン埋め込みは、微妙な意味情報をキャプチャし、複雑な言語パターンのモデリングを大幅に強化できるため、Large Language Models(LLM)の基盤となる。
しかし、関連する高次元はまた、かなりのモデルパラメータと、非常に高いモデルストレージをもたらす。
この問題に対処するために,各トークンの埋め込みを,分散的に効率的に計算可能なマトリックス製品状態(MPS)として扱うTTD(Tensor-Train Decomposition)に基づくアプローチを提案する。
GPT-2実験の結果, 埋め込み層を最大38.40倍圧縮することができ, 圧縮係数が3.31倍であれば, 従来のGPT-2モデルよりも優れた性能が得られることがわかった。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Knowledge Translation: A New Pathway for Model Compression [22.106103818486144]
TextbfKnowledge textbfTranslation (KT)
翻訳のモデルは、より大きなモデルのパラメータを受け取り、圧縮されたパラメータを生成するように訓練される。
我々は、KTの包括的なフレームワークを提案し、制限されたトレーニングデータにもかかわらず、モデル性能を向上させるためのデータ拡張戦略を導入し、MNISTデータセット上でのKTの実現可能性の実証に成功した。
論文 参考訳(メタデータ) (2024-01-11T09:25:42Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。