論文の概要: Transformer Compression via Subspace Projection
- arxiv url: http://arxiv.org/abs/2308.16475v1
- Date: Thu, 31 Aug 2023 05:40:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 15:42:28.665113
- Title: Transformer Compression via Subspace Projection
- Title(参考訳): 部分空間投影による変圧器圧縮
- Authors: Yuxuan Hu, Jing Zhang, Chen Zhao, Cuiping Li, Hong Chen
- Abstract要約: TCSPは, モデルの大きさの隠蔽に着目し, 変圧器モデルを圧縮する新しい手法である。
TCSP は GLUE と SQuAD ベンチマークで T5 と BERT モデルを圧縮するために用いられる。
- 参考スコア(独自算出の注目度): 22.10139319682865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TCSP, a novel method for compressing a transformer model by
focusing on reducing the hidden size of the model. By projecting the whole
transform model into a subspace, we enable matrix operations between the weight
matrices in the model and features in a reduced-dimensional space, leading to
significant reductions in model parameters and computing resources. To
establish this subspace, we decompose the feature matrix, derived from
different layers of sampled data instances, into a projection matrix. For
evaluation, TCSP is applied to compress T5 and BERT models on the GLUE and
SQuAD benchmarks. Experimental results demonstrate that TCSP achieves a
compression ratio of 44\% with at most 1.6\% degradation in accuracy,
surpassing or matching prior compression methods. Furthermore, TCSP exhibits
compatibility with other methods targeting filter and attention head size
compression.
- Abstract(参考訳): 本稿では,モデルの大きさの隠蔽に着目し,トランスモデルを圧縮する新しい方法TCSPを提案する。
変換モデル全体を部分空間に投影することにより、モデル内の重み行列と縮小次元空間の特徴の間の行列演算を可能にし、モデルパラメータと計算資源の大幅な削減に繋がる。
この部分空間を確立するために、サンプルデータインスタンスの異なる層から派生した特徴行列を投影行列に分解する。
TCSP は GLUE と SQuAD ベンチマークで T5 と BERT モデルを圧縮するために用いられる。
実験の結果,TCSPの圧縮比は44 %であり,精度は1.6 %以上低下し,先行圧縮法を上回り,適合することがわかった。
さらに、TCSPはフィルタとアテンションヘッドサイズ圧縮をターゲットとする他の手法との互換性を示す。
関連論文リスト
- Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - A Survey on Transformer Compression [84.18094368700379]
Transformerアーキテクチャに基づく大規模モデルは、人工知能においてますます重要な役割を担っている。
モデル圧縮法はメモリと計算コストを削減し、実用的なデバイス上でトランスフォーマーモデルを実装するために必要なステップである。
このサーベイは、最近の圧縮手法の包括的なレビューを提供し、トランスフォーマーモデルへの適用に特に焦点をあてている。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - Rethinking Compression: Reduced Order Modelling of Latent Features in
Large Language Models [9.91972450276408]
本稿では,Large Language Models (LLMs) のパラメトリックおよび実用的な圧縮に対して,低次モデリングに基づく革新的なアプローチを提案する。
本手法は, 行列分解を利用したモデル圧縮の顕著な進歩を示し, 最先端の構造化プルーニング法よりも優れた有効性を示した。
論文 参考訳(メタデータ) (2023-12-12T07:56:57Z) - Low-Rank Prune-And-Factorize for Language Model Compression [18.088550230146247]
マトリックスの分解は、中程度から高い圧縮速度で良好な性能を維持することができない。
スパシティ対応SVDとミックスランクファインチューニングの2つの手法を提案する。
論文 参考訳(メタデータ) (2023-06-25T07:38:43Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。