論文の概要: Shortened LLaMA: A Simple Depth Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.02834v1
- Date: Mon, 5 Feb 2024 09:44:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 17:12:23.092054
- Title: Shortened LLaMA: A Simple Depth Pruning for Large Language Models
- Title(参考訳): shortened llama: 大きな言語モデルのための単純な深さプルーニング
- Authors: Bo-Kyeong Kim, Geonmin Kim, Tae-Ho Kim, Thibault Castells, Shinkook
Choi, Junho Shin, Hyoung-Kyu Song
- Abstract要約: 提案手法は,ゼロショットタスク性能の観点から,近年の広帯域プルーニング手法と競合することを示す。
我々のプルーニング法は、特にメモリ制約条件下での推論速度を向上する。
- 参考スコア(独自算出の注目度): 5.392868234302299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured pruning of modern large language models (LLMs) has emerged as a
way of decreasing their high computational needs. Width pruning reduces the
size of projection weight matrices (e.g., by removing attention heads) while
maintaining the number of layers. Depth pruning, in contrast, removes entire
layers or blocks, while keeping the size of the remaining weights unchanged.
Most current research focuses on either width-only or a blend of width and
depth pruning, with little comparative analysis between the two units (width
vs. depth) concerning their impact on LLM inference efficiency. In this work,
we show that a simple depth pruning approach can compete with recent width
pruning methods in terms of zero-shot task performance. Our pruning method
boosts inference speeds, especially under memory-constrained conditions that
require limited batch sizes for running LLMs, where width pruning is
ineffective. We hope this work can help deploy LLMs on local and edge devices.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)の構造的プルーニングは、高い計算要求を減らす方法として現れている。
幅プルーニングは、層数を維持しながら投影重量行列(例えば注意ヘッドを取り除いて)のサイズを小さくする。
対照的に深さの刈り取りは、残りの重量のサイズを変更せずに、層やブロック全体を取り除きます。
現在の研究は幅のみまたは幅と深さの混合に重点を置いており、LLM推論効率への影響について2つの単位(幅と深さ)の比較分析はほとんどない。
本研究では,単純な深さプルーニング手法が,最近の幅プルーニング法とゼロショットタスク性能で競合することを示す。
提案手法は,特にメモリ制約条件下では,LLMの実行に必要なバッチサイズを制限し,幅切断が有効でない場合に,推論速度を向上する。
この作業が,ローカルおよびエッジデバイスへのllmのデプロイを支援することを願っています。
関連論文リスト
- Reassessing Layer Pruning in LLMs: New Insights and Methods [24.394438652261982]
単純なアプローチ、すなわち、最後の25%のレイヤをプルーニングし、その後にtextttlm_headと残りの3つのレイヤを微調整することで、非常に高いパフォーマンスが得られることを示す。
私たちはHfaceで最適なモデルウェイトをリリースし、コードはGitHubで入手できる。
論文 参考訳(メタデータ) (2024-11-23T13:31:16Z) - Scaling Law for Post-training after Model Pruning [24.9935656519956]
トランスフォーマーアーキテクチャに基づく大規模言語モデル(LLM)は、様々なドメインやタスクに広く採用されている。
これを軽減するため、高性能を維持しつつ、より効率的なモデルを作成するためにモデルプルーニング技術が開発されている。
本稿では,LLMの学習後要件について検討し,学習後データの最適量を決定するためのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-11-15T15:28:42Z) - Pruning Foundation Models for High Accuracy without Retraining [48.256389781305415]
基礎モデルや大規模言語モデル(LLM)の展開は、膨大なパラメータと計算量のために困難である。
ワンショットでLLMを再訓練せずにプルーンする訓練後プルーニング法が提案されている。
本実験は,SOTAベースラインと比較して提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-21T01:23:34Z) - AlphaPruning: Using Heavy-Tailed Self Regularization Theory for Improved Layer-wise Pruning of Large Language Models [94.82766517752418]
そこで我々は,AlphaPruningを提案する。このAlphaPruningは,より理論的に原理化された方法で,水平方向の空間比を割り振る。
以上よりAlphaPruning prunes LLaMA-7B to 80% sparsity while maintain well perplexity, marking a first in the literature on LLMs。
論文 参考訳(メタデータ) (2024-10-14T03:35:11Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。