論文の概要: ShortGPT: Layers in Large Language Models are More Redundant Than You
Expect
- arxiv url: http://arxiv.org/abs/2403.03853v2
- Date: Thu, 7 Mar 2024 16:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:13:54.006858
- Title: ShortGPT: Layers in Large Language Models are More Redundant Than You
Expect
- Title(参考訳): ShortGPT:大規模言語モデルのレイヤーは、予想以上に冗長である
- Authors: Xin Men, Mingyu Xu, Qingyu Zhang, Bingning Wang, Hongyu Lin, Yaojie
Lu, Xianpei Han, Weipeng Chen
- Abstract要約: LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 39.791695729504006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) continue to advance in performance, their
size has escalated significantly, with current LLMs containing billions or even
trillions of parameters. However, in this study, we discovered that many layers
of LLMs exhibit high similarity, and some layers play a negligible role in
network functionality. Based on this observation, we define a metric called
Block Influence (BI) to gauge the significance of each layer in LLMs. We then
propose a straightforward pruning approach: layer removal, in which we directly
delete the redundant layers in LLMs based on their BI scores. Experiments
demonstrate that our method, which we call ShortGPT, significantly outperforms
previous state-of-the-art (SOTA) methods in model pruning. Moreover, ShortGPT
is orthogonal to quantization-like methods, enabling further reduction in
parameters and computation. The ability to achieve better results through
simple layer removal, as opposed to more complex pruning techniques, suggests a
high degree of redundancy in the model architecture.
- Abstract(参考訳): 大規模言語モデル(LLM)のパフォーマンスが向上するにつれて、そのサイズは大幅に拡大し、現在のLLMには数十億または数兆のパラメータが含まれている。
しかし,本研究では,多くのllm層が高い類似性を示し,ネットワーク機能において無視できない役割を担っていることを発見した。
この観測に基づいてブロック影響(BI)と呼ばれる指標を定義し,LLMにおける各層の重要性を評価する。
そこで我々は, BIスコアに基づいて, LLMの冗長層を直接除去する, 簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA法よりも大幅に優れていることを示した。
さらに、shortgptは量子化のような方法と直交し、パラメータと計算のさらなる削減を可能にする。
より複雑な刈り取り技術とは対照的に、単純な層除去によってよりよい結果を得る能力は、モデルアーキテクチャにおける高い冗長性を示している。
関連論文リスト
- Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - LaCo: Large Language Model Pruning via Layer Collapse [63.973142426228016]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
後部モデル層が先行層に崩壊する,textitLayer Collapse (LaCo) と呼ばれる簡潔な層分割法を提案する。
実験の結果,25~30%の刈り取り率で平均タスク性能が80%以上維持されていることがわかった。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - SLEB: Streamlining LLMs through Redundancy Verification and Elimination
of Transformer Blocks [10.552149379573653]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。
既存の手法はしばしば、実質的なエンドツーエンドのLLM推論スピードアップを達成するのに苦労する。
SLEBは、冗長なトランスフォーマーブロックを排除し、LCMを合理化するための新しいアプローチである。
論文 参考訳(メタデータ) (2024-02-14T09:01:13Z) - Beyond Size: How Gradients Shape Pruning Decisions in Large Language
Models [27.488197964786806]
数十億以上のパラメータを持つ大規模言語モデル(LLM)は、ネットワークプルーニングの主要なターゲットである。
グラディエントベース言語モデルプルーナー (GBLM-Pruner) と呼ばれる, プレトレーニング済みLLMに対する新しいスペーサ中心プルーニング法を提案する。
GBLM-Pruner は,大刈り,Wanda (weights+activations) およびSparseGPT (weights+activations+weight update) を大きく上回っている。
論文 参考訳(メタデータ) (2023-11-08T18:59:54Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured
Pruning [57.12877119005303]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Scaling Sentence Embeddings with Large Language Models [43.19994568210206]
本研究では,文埋め込み性能の向上を目的としたテキスト内学習手法を提案する。
提案手法では,従来のプロンプトに基づく表現手法を自己回帰モデルに適用する。
モデルサイズをスケールすることで、数千億以上のパラメータへのスケーリングが意味的なテキスト類似性タスクのパフォーマンスを損なうことが分かる。
論文 参考訳(メタデータ) (2023-07-31T13:26:03Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。