論文の概要: OATS: Outlier-Aware Pruning Through Sparse and Low Rank Decomposition
- arxiv url: http://arxiv.org/abs/2409.13652v1
- Date: Fri, 20 Sep 2024 17:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:08:43.895233
- Title: OATS: Outlier-Aware Pruning Through Sparse and Low Rank Decomposition
- Title(参考訳): OATS: スパースとローランクの分解を通した外部対応プルーニング
- Authors: Stephen Zhang, Vardan Papyan,
- Abstract要約: 入力埋め込みにおける第2モーメント情報を利用してモデル重みをスパース行列とローランク行列の和に分解する,OATSという大形変圧器の圧縮手法を提案する。
OATSは、Llama-3やPhi-3のような大型言語モデルやViTやDINOv2のようなビジョントランスフォーマーで最大60%の価格でモデルを圧縮する際に、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.842973374883628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent paradigm shift to large-scale foundation models has brought about a new era for deep learning that, while has found great success in practice, has also been plagued by prohibitively expensive costs in terms of high memory consumption and compute. To mitigate these issues, there has been a concerted effort in post-hoc neural network pruning techniques that do not require costly retraining. Despite the considerable progress being made, existing methods often exhibit a steady drop in model performance as the compression increases. In this paper, we present a novel approach to compressing large transformers, coined OATS, that utilizes the second moment information in the input embeddings to decompose the model weights into a sum of sparse and low-rank matrices. Without any retraining, OATS achieves state-of-the-art performance when compressing models by up to $60\%$ on large language models such as Llama-3 and Phi-3 and vision transformers such as ViT and DINOv2 while delivering up to $1.37\times$ the CPU acceleration versus a model that was comparably pruned.
- Abstract(参考訳): 近年の大規模ファンデーションモデルへのパラダイムシフトにより、ディープラーニングの新しい時代がもたらされた。
これらの問題を緩和するために、費用のかかる再トレーニングを必要としないポストホックニューラルネットワークプルーニング技術に協力的な努力が続けられている。
かなりの進歩にもかかわらず、既存の手法では圧縮が増加するにつれてモデル性能が着実に低下することが多い。
本稿では、入力埋め込みにおける第2モーメント情報を利用して、モデル重みをスパース行列とローランク行列の和に分解する、OATSと呼ばれる大きなトランスフォーマーを圧縮する新しい手法を提案する。
再トレーニングなしで、OATSはLlama-3やPhi-3のような大型言語モデルやViTやDINOv2のようなビジョントランスフォーマーで最大$60\%の価格でモデルを圧縮し、最大$1.37\timesのCPUアクセラレーションとパーカッショニングされたモデルで、最先端のパフォーマンスを達成する。
関連論文リスト
- Trimming the Fat: Efficient Compression of 3D Gaussian Splats through Pruning [17.097742540845672]
脂肪を磨く」とは、モデルに符号化された余分な情報を除去する、ポストホックな勾配インフォームド・イテレーティブ・プルーニング技術である。
提案手法は,ベースラインモデルに類似した性能を維持しつつ,約50$times$圧縮を実現し,最大600FPSの高速化を実現している。
論文 参考訳(メタデータ) (2024-06-26T09:57:55Z) - F3-Pruning: A Training-Free and Generalized Pruning Strategy towards
Faster and Finer Text-to-Video Synthesis [94.10861578387443]
変圧器と拡散モデルを用いた2つの主流T2Vモデルの推論過程について検討する。
本稿では、時間的余分な注意重みを突破するF3プルーニングと呼ばれるトレーニングフリーで一般化されたプルーニング戦略を提案する。
古典的なトランスフォーマーベースモデルCogVideoと典型的な拡散ベースモデルTune-A-Videoを用いた3つのデータセットの大規模な実験により、F3-Pruningの有効性が検証された。
論文 参考訳(メタデータ) (2023-12-06T12:34:47Z) - DeepCache: Accelerating Diffusion Models for Free [65.02607075556742]
DeepCacheは、モデルアーキテクチャの観点から拡散モデルを加速するトレーニング不要のパラダイムである。
DeepCacheは拡散モデルのシーケンシャルなデノナイジングステップで観測される時間的冗長性に乗じている。
同じスループットで、DeepCacheはDDIMやPLMSで、事実上同等または極端に改善された結果を達成する。
論文 参考訳(メタデータ) (2023-12-01T17:01:06Z) - LEMON: Lossless model expansion [43.40389747029802]
ディープニューラルネットワーク、特にトランスフォーマーのスケーリングは、その急増するパフォーマンスにとって重要なものだ。
私たちは、より小さいがトレーニング済みのモデルの重みを使ってスケールされたモデルを初期化するレシピである、textbfL$ossl$textbfE$ss $textbfMO$del Expansio$textbfN$ (LEMON)を提示します。
LEMONは,視覚変換器の計算コストを56.7%削減し,BERTの33.2%削減した。
論文 参考訳(メタデータ) (2023-10-12T03:02:41Z) - Quantization-Aware and Tensor-Compressed Training of Transformers for
Natural Language Understanding [12.030179065286928]
本稿では,変圧器モデルにおけるモデルサイズ,演算演算,実行遅延を低減するために,量子化対応テンソル圧縮トレーニング手法を提案する。
あらかじめ訓練された変圧器から量子化およびテンソル圧縮された学生モデルを蒸留するために層間蒸留を適用した。
パフォーマンスは2つの自然言語理解タスクで実証され、最大6,3倍の圧縮率、精度の低下、顕著な推論とトレーニングのスピードアップを示す。
論文 参考訳(メタデータ) (2023-06-01T18:32:08Z) - Gradient-based Intra-attention Pruning on Pre-trained Language Models [21.444503777215637]
本稿では,GRAIN (Gradient-based intra-attention pruning) を用いた構造化プルーニング手法を提案する。
GRAINは、アテンション内構造を検査し、プーンし、構造探索空間を大きく拡張し、より柔軟なモデルを可能にする。
GLUE、SQuAD、CoNLL 2003の実験では、GRAINは特に高頻度で他の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-15T06:52:31Z) - Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints [59.39280540478479]
密なチェックポイントから疎活性化されたMixture-of-Expertsモデルを初期化することにより、サンクトレーニングコストを再利用する簡単な方法であるスパースアップサイクリングを提案する。
我々は, 比較的高サイクルなT5 Base, Large, XL言語モデル, Vision Transformer Base と Large モデルが, SuperGLUE と ImageNet の高密度モデルよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-12-09T18:57:37Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - Greedy Layer Pruning: Decreasing Inference Time of Transformer Models [0.0]
教師なし事前学習後の微調整変圧器モデルは、多くの異なるNLPタスクにおいて非常に高い性能に達する。
1つの解決策は知識蒸留を使うことであり、これは大きな教師モデルからより小さな学生モデルに情報を転送することでこの問題を解決する。
もう1つの解決策は、トランスモデルの高い圧縮速度に達する層ワイドプルーニング法を使用することである。
本稿では, 層状プルーニングの最先端化のために, GLP (greedy layer pruning) を導入している。
論文 参考訳(メタデータ) (2021-05-31T09:52:41Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Train Large, Then Compress: Rethinking Model Size for Efficient Training
and Inference of Transformers [94.43313684188819]
本研究では,計算によって制限されたNLPタスクのトランスフォーマーモデルに着目し,モデルサイズの影響について検討する。
まず最初に、より小さなTransformerモデルがイテレーション毎に高速に実行されているにもかかわらず、より広いモデルとより深いモデルがはるかに少ないステップで収束していることを示します。
これは、大きなTransformerモデルのトレーニング効率と小さなTransformerモデルの推論効率との間に明らかなトレードオフをもたらす。
論文 参考訳(メタデータ) (2020-02-26T21:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。