論文の概要: VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning
- arxiv url: http://arxiv.org/abs/2406.05276v2
- Date: Tue, 11 Jun 2024 23:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 11:28:49.030891
- Title: VTrans: Accelerating Transformer Compression with Variational Information Bottleneck based Pruning
- Title(参考訳): VTrans: 変分情報ボトルネックに基づくプルーニングによる変圧器圧縮の高速化
- Authors: Oshin Dutta, Ritvik Gupta, Sumeet Agarwal,
- Abstract要約: 本稿では,変分情報ボトルネック (VIB) の原理によって導かれる反復的刈り取りフレームワーク VTrans を提案する。
提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。
特に,本手法は従来の最先端手法よりも最大70%圧縮を実現する。
- 参考スコア(独自算出の注目度): 3.256420760342604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, there has been a growing emphasis on compressing large pre-trained transformer models for resource-constrained devices. However, traditional pruning methods often leave the embedding layer untouched, leading to model over-parameterization. Additionally, they require extensive compression time with large datasets to maintain performance in pruned models. To address these challenges, we propose VTrans, an iterative pruning framework guided by the Variational Information Bottleneck (VIB) principle. Our method compresses all structural components, including embeddings, attention heads, and layers using VIB-trained masks. This approach retains only essential weights in each layer, ensuring compliance with specified model size or computational constraints. Notably, our method achieves upto 70% more compression than prior state-of-the-art approaches, both task-agnostic and task-specific. We further propose faster variants of our method: Fast-VTrans utilizing only 3% of the data and Faster-VTrans, a time efficient alternative that involves exclusive finetuning of VIB masks, accelerating compression by upto 25 times with minimal performance loss compared to previous methods. Extensive experiments on BERT, ROBERTa, and GPT-2 models substantiate the efficacy of our method. Moreover, our method demonstrates scalability in compressing large models such as LLaMA-2-7B, achieving superior performance compared to previous pruning methods. Additionally, we use attention-based probing to qualitatively assess model redundancy and interpret the efficiency of our approach. Notably, our method considers heads with high attention to special and current tokens in un-pruned model as foremost candidates for pruning while retained heads are observed to attend more to task-critical keywords.
- Abstract(参考訳): 近年,資源制約のあるデバイスに対して,大規模な事前学習型トランスフォーマーモデルを圧縮することの重要性が高まっている。
しかし、伝統的なプルーニング法は、しばしば埋め込み層を無傷で残し、過パラメータ化のモデルに繋がる。
さらに、プルーニングされたモデルのパフォーマンスを維持するために、大規模なデータセットによる広範な圧縮時間が必要となる。
これらの課題に対処するために,変分情報ボトルネック(VIB)の原理で導かれる反復的刈り取りフレームワークであるVTransを提案する。
提案手法は,VIBトレーニングマスクを用いた埋め込み,アテンションヘッド,層など,すべての構造成分を圧縮する。
このアプローチは各レイヤに必須の重みしか保持せず、特定のモデルサイズや計算上の制約に準拠することを保証する。
特に,本手法は,タスク非依存とタスク特化の両面において,従来の最先端手法よりも最大70%圧縮を実現している。
高速VTransは、VBマスクを排他的に微調整し、圧縮を25倍まで加速し、従来の方法に比べて性能損失が最小限である。
BERT, ROBERTa, GPT-2モデルに対する広範囲な実験により, 本法の有効性が確認された。
さらに,LLaMA-2-7Bのような大型モデルの圧縮におけるスケーラビリティを実証し,従来のプルーニング法と比較して優れた性能を実現する。
さらに、注意に基づく探索を用いて、モデルの冗長性を質的に評価し、アプローチの効率性を解釈する。
特に,本手法では,タスククリティカルなキーワードに係わる上で,保持された頭部が最優先のプルーニング候補として,特別なトークンや現在のトークンに注意を払っている。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Memory-Efficient Vision Transformers: An Activation-Aware Mixed-Rank
Compression Strategy [5.699098817569033]
本稿では,ViTのパラメータ数を削減するために,異なる層の低ランクテンソル近似を用いたアクティベーション対応モデル圧縮手法を提案する。
提案手法は,ImageNetデータセットの精度を1%以下に抑えながら,DeiT-Bのパラメータ数を60%削減する。
これに加えて、提案した圧縮技術は、DeiT/ViTモデルを圧縮して、より小型のDeiT/ViTモデルとほぼ同じモデルサイズで、精度が最大1.8%向上する。
論文 参考訳(メタデータ) (2024-02-08T19:01:14Z) - A Survey on Transformer Compression [84.18094368700379]
自然言語処理(NLP)とコンピュータビジョン(CV)の領域においてトランスフォーマーは重要な役割を果たす
モデル圧縮法は、Transformerのメモリと計算コストを削減する。
この調査は、Transformerベースのモデルに適用することに焦点を当てた、最近の圧縮方法に関する包括的なレビューを提供する。
論文 参考訳(メタデータ) (2024-02-05T12:16:28Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Extreme Compression for Pre-trained Transformers Made Simple and
Efficient [31.719905773863566]
極端圧縮、特に超低ビット精度(バイナリ/3次量子化)は、リソース制約デバイスに大規模なNLPモデルを適用するために提案されている。
我々は,超高速圧縮のための単純かつ効果的な圧縮パイプライン XTC を提案する。
論文 参考訳(メタデータ) (2022-06-04T00:19:45Z) - DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and
Quantization [75.72231742114951]
BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。
これらのモデルは、大きなメモリ要件と高いレイテンシのため、リソース制約のあるシナリオにおいて大きな課題となる。
そこで,本論文では,教師モデルから学生モデルへの知識の伝達と,学生モデルの定量化と定量化について提案する。
論文 参考訳(メタデータ) (2022-03-21T18:04:25Z) - Multi-Dimensional Model Compression of Vision Transformer [21.8311401851523]
近年、視覚変換器 (ViT) が注目されているが、その膨大な計算コストは実用的展開において問題となっている。
従来のViTプルーニング法は、モデルを1次元だけに沿ってプルークする傾向がある。
我々は,多次元のViT圧縮パラダイムを提唱し,アテンションヘッド,ニューロン,シーケンス次元からの冗長性低減を共同で行うことを提案する。
論文 参考訳(メタデータ) (2021-12-31T19:54:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。