論文の概要: Kronecker Decomposition for GPT Compression
- arxiv url: http://arxiv.org/abs/2110.08152v1
- Date: Fri, 15 Oct 2021 15:28:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 13:24:06.565025
- Title: Kronecker Decomposition for GPT Compression
- Title(参考訳): GPT圧縮のためのKronecker分解
- Authors: Ali Edalati, Marzieh Tahaei, Ahmad Rashid, Vahid Partovi Nia, James J.
Clark, Mehdi Rezagholizadeh
- Abstract要約: GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
- 参考スコア(独自算出の注目度): 8.60086973058282
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: GPT is an auto-regressive Transformer-based pre-trained language model which
has attracted a lot of attention in the natural language processing (NLP)
domain due to its state-of-the-art performance in several downstream tasks. The
success of GPT is mostly attributed to its pre-training on huge amount of data
and its large number of parameters (from ~100M to billions of parameters).
Despite the superior performance of GPT (especially in few-shot or zero-shot
setup), this overparameterized nature of GPT can be very prohibitive for
deploying this model on devices with limited computational power or memory.
This problem can be mitigated using model compression techniques; however,
compressing GPT models has not been investigated much in the literature. In
this work, we use Kronecker decomposition to compress the linear mappings of
the GPT-22 model. Our Kronecker GPT-2 model (KnGPT2) is initialized based on
the Kronecker decomposed version of the GPT-2 model and then is undergone a
very light pre-training on only a small portion of the training data with
intermediate layer knowledge distillation (ILKD). Finally, our KnGPT2 is
fine-tuned on down-stream tasks using ILKD as well. We evaluate our model on
both language modeling and General Language Understanding Evaluation benchmark
tasks and show that with more efficient pre-training and similar number of
parameters, our KnGPT2 outperforms the existing DistilGPT2 model significantly.
- Abstract(参考訳): GPTは自動回帰トランスフォーマーに基づく事前訓練型言語モデルであり、いくつかの下流タスクにおける最先端の性能のため、自然言語処理(NLP)領域で多くの注目を集めている。
GPTの成功の大部分は、大量のデータと大量のパラメータ(約1億から数十億のパラメータ)を事前学習したことによる。
GPTの優れた性能(特に小ショットやゼロショットでは)にもかかわらず、GPTの過度パラメータ化の性質は、このモデルを限られた計算能力やメモリを持つデバイスにデプロイすることを非常に禁じることができる。
この問題はモデル圧縮技術を用いて緩和することができるが、GPTモデルの圧縮については研究されていない。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
我々のクロネッカーgpt-2モデル(kngpt2)は、gpt-2モデルのクロネッカー分解版に基づいて初期化され、トレーニングデータのごく一部に中間層知識蒸留(ilkd)を施した非常に軽い事前訓練を受ける。
最後に、我々のKnGPT2は、ILKDを使用して下流タスクにも微調整されています。
我々は,言語モデリングと汎用言語理解評価のベンチマークタスクにおいて,我々のモデルを評価し,より効率的な事前学習と類似したパラメータ数で既存のDistilGPT2モデルよりも優れていることを示す。
関連論文リスト
- GPT vs RETRO: Exploring the Intersection of Retrieval and Parameter-Efficient Fine-Tuning [48.71952325015267]
PEFT法を改良型Retrieval-Enhanced Transformer (RETRO) およびベースラインGPTモデルに適用する。
本稿では、RETROモデルが、独自の事前学習プロセスにより、ゼロショット設定でGPTモデルより優れていることを示す。
本研究は, GPTモデルとRETROモデルの両方に適用された各種PEFT法をRAGと統合した最初の包括的比較である。
論文 参考訳(メタデータ) (2024-07-05T14:16:47Z) - Aligning GPTRec with Beyond-Accuracy Goals with Reinforcement Learning [67.71952251641545]
GPTRecはアイテム・バイ・イテムレコメンデーションのためのTop-Kモデルの代替品である。
GPTRecは,従来のグリーディ・リグレード手法よりも精度とセカンダリ・メトリクスのトレードオフが優れていることを示す。
2つのデータセットに対する実験により、GPTRecのNext-K生成アプローチは、古典的なグリージーな再ランク技術よりも精度と二次メトリクスのトレードオフが優れていることが示された。
論文 参考訳(メタデータ) (2024-03-07T19:47:48Z) - TQCompressor: improving tensor decomposition methods in neural networks
via permutations [0.0]
本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
この拡張により、通常分解と関連付けられたモデル表現率の損失を低減することができる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を比較評価で上回った。
論文 参考訳(メタデータ) (2024-01-29T18:07:56Z) - Approximating Human-Like Few-shot Learning with GPT-based Compression [55.699707962017975]
我々は、推論中にデータ圧縮を可能にする、人間のような学習能力を備えた生成事前学習モデルを提案する。
本稿では,GPT(Generative Pre-trained Transformer)を用いてコルモゴロフ複雑性を近似する手法を提案する。
論文 参考訳(メタデータ) (2023-08-14T05:22:33Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - InheritSumm: A General, Versatile and Compact Summarizer by Distilling
from GPT [75.29359361404073]
InheritSummは、蒸留によりGPT-3.5から派生した汎用的でコンパクトな要約モデルである。
GPT-3.5と同様、ゼロショットやスプリットショットの設定でパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T14:52:32Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - A Short Study on Compressing Decoder-Based Language Models [9.090064110056224]
事前訓練された言語モデル(PLM)は、幅広い自然言語処理(NLP)タスクで成功している。
PLMの最先端技術は、エッジデバイスで使用するために非常に大きい。
モデル圧縮の話題はNLPコミュニティで注目を集めている。
論文 参考訳(メタデータ) (2021-10-16T03:37:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。