論文の概要: Compressing Large Language Models by Streamlining the Unimportant Layer
- arxiv url: http://arxiv.org/abs/2403.19135v1
- Date: Thu, 28 Mar 2024 04:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.273530
- Title: Compressing Large Language Models by Streamlining the Unimportant Layer
- Title(参考訳): 統一層を合理化して大言語モデルを圧縮する
- Authors: Xiaodong Chen, Yuxuan Hu, Jing Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語のタスクやドメインに広く適用されている。
本稿では,レイヤプルーニングと層置換という2つの部分からなるLCM-Streamlineを提案する。
提案手法であるLCM-Streamlineは,従来の最先端(SOTA)モデルプルーニング法より優れていた。
- 参考スコア(独自算出の注目度): 13.03815753589673
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLM) have been extensively applied in various natural language tasks and domains, but their applicability is constrained by the large number of parameters of the models. Consequently, there is an increasing emphasis on compact models that exhibit high performance. In this study, we observe that different layers in LLM have varying degrees of perturbation on the hidden states, which allows us to identify less important layers. Based on this phenomenon, we propose LLM-Streamline, which consists of two parts: layer pruning, where we remove a set of consecutive layers with the lowest importance in the model according to the target sparsity; and layer replacement, where we train a lightweight model to substitute the pruned layers, thereby mitigating the performance degradation caused by pruning. In our experiments, we utilize structures such as a multi-layer perceptron (MLP) and a transformer layer as lightweight models and ultimately demonstrate that a single MLP can effectively fit the pruned layers. Comprehensive experiments show that our proposed method, LLM-Streamline, outperforms previous state-of-the-art (SOTA) model pruning methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語タスクやドメインに広く適用されてきたが、それらの適用性はモデルの多くのパラメータによって制約されている。
その結果、高性能を示すコンパクトモデルに重点が置かれている。
本研究では,LLMの異なる層が隠れた状態に対して摂動の程度が異なることを観察し,より重要でない層を同定する。
そこで,本研究では, 対象の空間に応じて, モデルに最も重要度の高い連続層群を除去する層プルーニングと, プルーニングによる性能劣化を軽減するために軽量モデルを訓練する層置換という2つの部分からなるLCM-Streamlineを提案する。
実験では,マルチ層パーセプトロン (MLP) やトランスフォーマー層などの構造を軽量モデルとして利用し,最終的に単一のMLPが破砕層に効果的に適合できることを実証した。
総合実験により,提案手法のLLM-Streamlineは,従来のSOTAモデルプルーニング法よりも優れた性能を示した。
関連論文リスト
- The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - ShortGPT: Layers in Large Language Models are More Redundant Than You
Expect [39.791695729504006]
LLM(Large Language Models)の多くの層は高い類似性を示し、いくつかの層はネットワーク機能において無視できる役割を担っている。
レイヤ除去という,冗長なレイヤを直接削除する,簡単なプルーニング手法を提案する。
実験により,我々はShortGPT(ショートGPT)と呼ぶ手法を,モデルプルーニングにおける従来のSOTA(State-of-the-art)手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T17:04:18Z) - Why Lift so Heavy? Slimming Large Language Models by Cutting Off the
Layers [2.1165011830664673]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対処する際、優れた能力を持っている。
これらのモデルの厳密なサイズは、ストレージ、トレーニング、推論において、層積み重ねによる数十億のパラメータを含むため、課題を生じさせる。
レイヤが少なくても、LLMは、特にテキスト分類タスクのプロンプトベースの微調整において、類似またはより良いパフォーマンスレベルを維持していることを示す。
論文 参考訳(メタデータ) (2024-02-18T20:47:10Z) - LaCo: Large Language Model Pruning via Layer Collapse [63.973142426228016]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
後部モデル層が先行層に崩壊する,textitLayer Collapse (LaCo) と呼ばれる簡潔な層分割法を提案する。
実験の結果,25~30%の刈り取り率で平均タスク性能が80%以上維持されていることがわかった。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Masked Image Modeling with Local Multi-Scale Reconstruction [54.91442074100597]
Masked Image Modeling (MIM) は自己教師付き表現学習において顕著な成功を収めている。
既存のMIMモデルはエンコーダの最上層でのみ再構成タスクを実行する。
そこで我々は,下層と上層がそれぞれ微細かつ粗大な監視信号を再構成する局所的マルチスケール再構成を設計する。
論文 参考訳(メタデータ) (2023-03-09T13:42:04Z) - LV-BERT: Exploiting Layer Variety for BERT [85.27287501885807]
我々は,事前学習モデルに有益である層型集合に畳み込みを導入する。
次に、事前学習による進化的アルゴリズムを採用し、最適なアーキテクチャを求める。
提案手法により得られたLV-BERTモデルは,様々な下流タスクにおいてBERTとその変種より優れる。
論文 参考訳(メタデータ) (2021-06-22T13:20:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。