論文の概要: Krony-PT: GPT2 compressed with Kronecker Products
- arxiv url: http://arxiv.org/abs/2412.12351v1
- Date: Mon, 16 Dec 2024 20:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:01:34.619866
- Title: Krony-PT: GPT2 compressed with Kronecker Products
- Title(参考訳): Krony-PT:Kronecker製品で圧縮されたGPT2
- Authors: M. Ayoub Ben Ayad, Jelena Mitrovic, Michael Granitzer,
- Abstract要約: 我々はKronecker ProductsをベースにしたGPT2 citepradford 2019の圧縮技術であるKrony-PTを紹介する。
具体的には、元のトランス層の層を対象とし、フィードフォワード層を様々な程度に体系的に圧縮する。
- 参考スコア(独自算出の注目度): 0.6372911857214884
- License:
- Abstract: We introduce Krony-PT, a compression technique of GPT2 \citep{radford2019language} based on Kronecker Products. We specifically target the MLP layers of each transformer layer, and systematically compress the feed forward layer matrices to various degrees. We introduce a modified Van Loan decomposition to initialize the new factors, and also introduce a new pruning-based initialization trick. Our method compresses the original 124M parameter GPT2 to various smaller models, with 80M being the smallest, and 96M being the largest compressed model. Our 81M model variant outperforms distilgpt2 on next-token prediction on all standard language modeling datasets, and shows competitive scores or performs on par with other Kronecker Products based compressed models of GPT2 that are significantly higher in size.
- Abstract(参考訳): 我々は Kronecker Products に基づく GPT2 \citep{radford2019 languages} の圧縮技術である Krony-PT を紹介する。
具体的には,各トランス層のMLP層を対象とし,フィードフォワード層を様々な程度に体系的に圧縮する。
本稿では,新しい因子を初期化するために改良されたヴァン・ローン分解を導入するとともに,新しいプルーニングに基づく初期化手法を導入する。
提案手法は, 従来の 124M パラメータ GPT2 を小型モデルに圧縮し, 80M を最小モデル, 96M を最大圧縮モデルとした。
我々の81Mモデルは、すべての標準言語モデリングデータセットの次点予測において distilgpt2 よりも優れており、他の Kronecker Products ベースの圧縮モデルである GPT2 に匹敵する競合スコアやパフォーマンスを示している。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - TQCompressor: improving tensor decomposition methods in neural networks
via permutations [0.0]
本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
この拡張により、通常分解と関連付けられたモデル表現率の損失を低減することができる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を比較評価で上回った。
論文 参考訳(メタデータ) (2024-01-29T18:07:56Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。