論文の概要: Fast and Optimal Weight Update for Pruned Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02938v1
- Date: Mon, 1 Jan 2024 23:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 09:44:36.085411
- Title: Fast and Optimal Weight Update for Pruned Large Language Models
- Title(参考訳): 大規模言語モデルにおける高速かつ最適ウェイト更新
- Authors: Vladim\'ir Bo\v{z}a
- Abstract要約: 乗算器の交互方向法(ADMM)に基づく切削層に対する高速かつ最適な重み更新アルゴリズムを提案する。
提案アルゴリズムは,多種多様な大規模言語モデル(LLM)における最先端プルーニング性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pruning large language models (LLMs) is a challenging task due to their
enormous size. The primary difficulty is fine-tuning the model after pruning,
which is needed to recover the lost performance caused by dropping weights.
Recent approaches have either ignored fine-tuning entirely, focusing on
efficient pruning criteria, or attempted layer-wise weight updates, preserving
the behavior of each layer. However, even layer-wise weight updates can be
costly for LLMs, and previous works have resorted to various approximations.
In our paper, we propose a fast and optimal weight update algorithm for
pruned layers based on the Alternating Direction Method of Multipliers (ADMM).
Coupled with a simple iterative pruning mask selection, our algorithm achieves
state-of-the-art pruning performance across a wide range of LLMs. Code is
available at https://github.com/fmfi-compbio/admm-pruning.
- Abstract(参考訳): 大きな言語モデル(LLMs)のプルーニングは、その巨大なサイズのため難しい作業である。
主な難点は刈り取り後にモデルを微調整することであり、重みを落として失われた性能を回復する必要がある。
最近のアプローチでは、微調整を完全に無視し、効率的な刈り取り基準にフォーカスするか、各層の挙動を保ちながら層単位での重み付けを試みている。
しかし、レイヤ単位での重み付け更新であってもllmsにはコストがかかり、以前の作業は様々な近似を頼りにしている。
本稿では,乗算器の交互方向法(admm)に基づいて,プルーニング層に対する高速かつ最適重み更新アルゴリズムを提案する。
簡単な反復型プルーニングマスク選択と組み合わせて,多種多様なLLMにおける最先端プルーニング性能を実現する。
コードはhttps://github.com/fmfi-compbio/admm-pruningで入手できる。
関連論文リスト
- Shortened LLaMA: A Simple Depth Pruning for Large Language Models [5.392868234302299]
提案手法は,ゼロショットタスク性能の観点から,近年の広帯域プルーニング手法と競合することを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
論文 参考訳(メタデータ) (2024-02-05T09:44:49Z) - A Simple and Effective Pruning Approach for Large Language Models [58.716255689941896]
大規模言語モデル(LLM)は、ネットワークプルーニング手法の自然な候補である。
しかし,既存の手法では,2次情報に依存した再訓練や重み復元の問題の解決が求められている。
我々は,事前学習したLLMの空間性を高めるために,Wanda (Pruning by Weights and activations) と呼ばれる新しい,単純で効果的な刈り取り法を導入する。
論文 参考訳(メタデータ) (2023-06-20T17:18:20Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Meta-Learning with Adaptive Hyperparameters [55.182841228303225]
我々は、MAMLフレームワークの補完的要素、インナーループ最適化(あるいは高速適応)に焦点を当てる。
高速適応プロセスを大幅に向上させる新しい重み更新ルールを提案する。
論文 参考訳(メタデータ) (2020-10-31T08:05:34Z) - Layer-adaptive sparsity for the Magnitude-based Pruning [88.37510230946478]
本稿では,LAMP(Layer-Adaptive magnitude-based pruning)スコアを用いたグローバルプルーニングの新たな重要点を提案する。
LAMPは、階層的な空間選択のための一般的なスキームを一貫して上回っている。
論文 参考訳(メタデータ) (2020-10-15T09:14:02Z) - AdamP: Slowing Down the Slowdown for Momentum Optimizers on
Scale-invariant Weights [53.8489656709356]
正規化技術は現代の深層学習の恩恵である。
しかし、運動量を導入することで、スケール不変の重みに対する効果的なステップサイズが急速に小さくなることがしばしば見過ごされる。
本稿では,この2つの材料の組み合わせが,有効ステップサイズと準最適モデル性能の早期劣化につながることを検証した。
論文 参考訳(メタデータ) (2020-06-15T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。