論文の概要: Fast and Effective Weight Update for Pruned Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02938v2
- Date: Mon, 22 Jul 2024 14:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 03:12:35.386950
- Title: Fast and Effective Weight Update for Pruned Large Language Models
- Title(参考訳): 大規模言語モデルに対する高速かつ効果的なウェイトアップデート
- Authors: Vladimír Boža,
- Abstract要約: 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
最近のアプローチでは、微調整を完全に無視するか、レイヤワイド更新を試みた。
乗算器の交互方向法に基づく切削層に対する高速かつ効率的な重み更新アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning large language models (LLMs) is a challenging task due to their enormous size. The primary difficulty is fine-tuning the model after pruning, which is needed to recover the lost performance caused by dropping weights. Recent approaches have either ignored fine-tuning entirely, focusing on efficient pruning criteria, or attempted layer-wise weight updates, preserving the behavior of each layer. However, even layer-wise weight updates can be costly for LLMs, and previous works have resorted to various approximations. In our paper, we propose a fast and effective weight update algorithm for pruned layers based on the Alternating Direction Method of Multipliers (ADMM). We further extend it with a simple gradual pruning mask selection and achieve state-of-the-art pruning performance across a wide range of LLMs. Code is available at https://github.com/fmfi-compbio/admm-pruning.
- Abstract(参考訳): 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため、難しい作業である。
一番の難易度は刈り込み後のモデルを微調整することであり、これは減量による損失性能の回復に必要である。
近年のアプローチでは、効率的な刈り取り基準に焦点をあてるなど、微調整を完全に無視したり、各層の挙動を保ちながら、レイヤワイド・ウェイト・アップデートを試みたりしている。
しかし、レイヤワイド・ウェイト・アップデートでさえLCMにはコストがかかり、以前の研究は様々な近似に頼っている。
本稿では,マルチプライヤの交互方向法(ADMM)に基づく,切断層に対する高速かつ効果的な重み更新アルゴリズムを提案する。
さらに、簡単な段階的なプルーニングマスクの選択で拡張し、幅広いLLMに対して最先端のプルーニング性能を実現する。
コードはhttps://github.com/fmfi-compbio/admm-pruning.comで入手できる。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - Pruning Pre-trained Language Models Without Fine-Tuning [42.54071630668426]
PLMを下流タスクに収束させるのに1次プルーニングは十分であるので、ファインチューニングは1次プルーニングには冗長である、と我々は主張する。
そこで本研究では,SMP(Static Model Pruning)を提案する。これは1次プルーニングのみを用いて,目的の空間レベルを達成しつつ,PLMを下流タスクに適応させる。
論文 参考訳(メタデータ) (2022-10-12T13:58:38Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。