論文の概要: Krony-PT: GPT2 compressed with Kronecker Products
- arxiv url: http://arxiv.org/abs/2412.12351v2
- Date: Tue, 30 Sep 2025 19:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.475379
- Title: Krony-PT: GPT2 compressed with Kronecker Products
- Title(参考訳): Krony-PT:Kronecker製品で圧縮されたGPT2
- Authors: Mohamed Ayoub Ben Ayad, Jelena Mitrovic, Michael Granitzer,
- Abstract要約: 我々はKronecker製品に基づくGPT-2の圧縮技術であるKrony-PTを紹介する。
具体的には、各トランスブロックのフィードフォワード重みを対象とし、フィードフォワード層行列を様々な程度に体系的に圧縮する。
- 参考スコア(独自算出の注目度): 2.3693889373270545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Krony-PT, a compression technique for GPT-2 based on Kronecker products. We specifically target the feed-forward weights of each transformer block, and systematically compress the feed-forward layer matrices to various degrees. We introduce a modified Van Loan decomposition to initialize new Kronecker factors, and also propose a new pruning-based initialization technique. Our method compresses the original 124M-parameter GPT-2 to various smaller models, ranging from 80M to 96M. Our 81M model variant outperforms DistilGPT2 on next-token prediction across all standard language modeling datasets, and shows competitive or comparable performance with significantly larger Kronecker-based compressions of GPT-2.
- Abstract(参考訳): 我々はKronecker製品に基づくGPT-2の圧縮技術であるKrony-PTを紹介する。
具体的には,各トランスブロックのフィードフォワード重みを対象とし,フィードフォワード層を様々な程度に体系的に圧縮する。
そこで我々は,新しいKronecker因子を初期化するために改良されたvan Loan分解を導入し,新しいプルーニングに基づく初期化手法を提案する。
提案手法は,オリジナルの124MパラメータGPT-2を80Mから96Mまでの様々な小型モデルに圧縮する。
我々の81Mモデル変種は、すべての標準言語モデリングデータセットの次点予測においてDistilGPT2より優れており、GPT-2のKroneckerベースの圧縮を大幅に大きくして、競合的または同等のパフォーマンスを示している。
関連論文リスト
- Compressing Large Language Models with PCA Without Performance Loss [0.0]
主成分分析は、性能を犠牲にすることなく、ニューラルネットワークの極端な圧縮を可能にすることを示す。
PCA圧縮極性MNISTで訓練された一層分類器は、840個のパラメータのみを用いて98%以上の精度を達成している。
70次元PCA-Reduced MiniLM埋め込みで訓練された2層トランスフォーマーは、20 News Groupsデータセット上で76.62パーセントの精度に達する。
論文 参考訳(メタデータ) (2025-08-06T10:47:22Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - TQCompressor: improving tensor decomposition methods in neural networks
via permutations [0.0]
本稿では,テンソル分解を改良したニューラルネットワークモデル圧縮手法であるTQCompressorを紹介する。
この拡張により、通常分解と関連付けられたモデル表現率の損失を低減することができる。
TQCompressedGPT-2 は DistilGPT-2 と KnGPT-2 を比較評価で上回った。
論文 参考訳(メタデータ) (2024-01-29T18:07:56Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - TensorGPT: Efficient Compression of Large Language Models based on Tensor-Train Decomposition [19.897367559948336]
行列-トレイン分解(TTD)に基づく学習自由モデル圧縮手法を提案する。
次に,本手法により抽出された低ランク構造を,典型的なローエンドデバイス(Raspberry Pi)の圧縮率,言語タスク性能,レイテンシの観点から検討する。
論文 参考訳(メタデータ) (2023-07-02T09:33:09Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Kronecker Decomposition for GPT Compression [8.60086973058282]
GPTは自動回帰トランスフォーマーベースの事前学習言語モデルであり、自然言語処理(NLP)分野において多くの注目を集めている。
GPTの性能は優れているが、GPTはこのモデルを限られた計算能力やメモリを持つデバイスに展開することを非常に禁じることができる。
本研究では, GPT-22モデルの線形写像を圧縮するためにKronecker分解を用いる。
論文 参考訳(メタデータ) (2021-10-15T15:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。