論文の概要: Fast and Optimal Weight Update for Pruned Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02938v1
- Date: Mon, 1 Jan 2024 23:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:44:36.085411
- Title: Fast and Optimal Weight Update for Pruned Large Language Models
- Title(参考訳): 大規模言語モデルにおける高速かつ最適ウェイト更新
- Authors: Vladim\'ir Bo\v{z}a
- Abstract要約: 乗算器の交互方向法(ADMM)に基づく切削層に対する高速かつ最適な重み更新アルゴリズムを提案する。
提案アルゴリズムは,多種多様な大規模言語モデル(LLM)における最先端プルーニング性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning large language models (LLMs) is a challenging task due to their
enormous size. The primary difficulty is fine-tuning the model after pruning,
which is needed to recover the lost performance caused by dropping weights.
Recent approaches have either ignored fine-tuning entirely, focusing on
efficient pruning criteria, or attempted layer-wise weight updates, preserving
the behavior of each layer. However, even layer-wise weight updates can be
costly for LLMs, and previous works have resorted to various approximations.
In our paper, we propose a fast and optimal weight update algorithm for
pruned layers based on the Alternating Direction Method of Multipliers (ADMM).
Coupled with a simple iterative pruning mask selection, our algorithm achieves
state-of-the-art pruning performance across a wide range of LLMs. Code is
available at https://github.com/fmfi-compbio/admm-pruning.
- Abstract(参考訳): 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため難しい作業である。
主な難点は刈り取り後にモデルを微調整することであり、重みを落として失われた性能を回復する必要がある。
最近のアプローチでは、微調整を完全に無視し、効率的な刈り取り基準にフォーカスするか、各層の挙動を保ちながら層単位での重み付けを試みている。
しかし、レイヤ単位での重み付け更新であってもllmsにはコストがかかり、以前の作業は様々な近似を頼りにしている。
本稿では,乗算器の交互方向法(admm)に基づいて,プルーニング層に対する高速かつ最適重み更新アルゴリズムを提案する。
簡単な反復型プルーニングマスク選択と組み合わせて,多種多様なLLMにおける最先端プルーニング性能を実現する。
コードはhttps://github.com/fmfi-compbio/admm-pruningで入手できる。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - LLM-Barber: Block-Aware Rebuilder for Sparsity Mask in One-Shot for Large Language Models [7.496469228171892]
大規模言語モデル(LLM)は大規模に大きく成長しており、効率的なモデルプルーニング技術を必要としている。
LLM-Barber (Block-Aware Rebuilder for Sparsity Mask in One-Shot) は, プレナードモデルのスポーシティマスクをリトレーニングや重量再構成なしに再構築する, ワンショットプルーニングフレームワークである。
実験の結果,LLM-Barber は 1 つの A100 GPU 上で 7B から 13B のパラメータを持つモデルを 30 分で効率的にプルークできることがわかった。
論文 参考訳(メタデータ) (2024-08-20T08:13:52Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models [53.638791265113625]
空間保存型大規模言語モデルのための効率的な微調整法
コードはhttps://github.com/Lucky-Lance/SPP.comで公開される。
論文 参考訳(メタデータ) (2024-05-25T04:55:27Z) - Shortened LLaMA: Depth Pruning for Large Language Models with Comparison of Retraining Methods [5.135352292810664]
単純深度プルーニングは大規模言語モデル(LLM)を効果的に圧縮できることを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
この作業がコンパクトで有能なLLMの構築に役立つことを願っています。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。