論文の概要: LaCo: Large Language Model Pruning via Layer Collapse
- arxiv url: http://arxiv.org/abs/2402.11187v2
- Date: Tue, 15 Oct 2024 01:58:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:59:42.298831
- Title: LaCo: Large Language Model Pruning via Layer Collapse
- Title(参考訳): LaCo: レイヤ崩壊による大規模言語モデルプルーニング
- Authors: Yifei Yang, Zouying Cao, Hai Zhao,
- Abstract要約: トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
- 参考スコア(独自算出の注目度): 56.92068213969036
- License:
- Abstract: Large language models (LLMs) based on transformer are witnessing a notable trend of size expansion, which brings considerable costs to both model training and inference. However, existing methods such as model quantization, knowledge distillation, and model pruning are constrained by various issues, including hardware support limitations, the need for extensive training, and alterations to the model internal structure. In this paper, we propose a concise layer-wise structured pruner called \textit{Layer Collapse (LaCo)}, in which rear model layers collapse into a prior layer, enabling a rapid reduction in model size while preserving the model structure. Comprehensive experiments show that our method maintains an average task performance of over 80\% at pruning ratios of 25-30\%, significantly outperforming existing state-of-the-art structured pruning methods. We also conduct post-training experiments to confirm that the \textit{LaCo} effectively inherits the parameters of the original model. Additionally, we perform ablation studies on various settings of \textit{LaCo}. Finally, we discuss our motivation from the perspective of layer-wise similarity and evaluate the performance of the pruned LLMs across various pruning ratios\footnote{\url{https://github.com/yangyifei729/LaCo}}.
- Abstract(参考訳): トランスフォーマーをベースとした大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃しており、モデルトレーニングと推論の両方にかなりのコストがかかる。
しかし、モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、ハードウェアサポートの制限、広範囲なトレーニングの必要性、モデル内部構造の変更など、様々な問題によって制約されている。
本稿では, モデル構造を保ちながらモデルサイズを高速に削減し, 後部モデル層を先行層に崩壊させるような, 簡潔な階層構造型プルーナーである「textit{Layer Collapse (LaCo)}を提案する。
包括的実験により,本手法は,25~30%のプルーニング比で平均80~80%以上のタスク性能を維持しており,既存の最先端構造プルーニング法よりも著しく優れていた。
また, トレーニング後の実験により, \textit{LaCo} が元のモデルのパラメータを効率的に継承することを確認した。
さらに, 各種のtextit{LaCo} の設定についてアブレーション研究を行う。
最後に, 層間類似性の観点からのモチベーションを考察し, 各種プルーニング比におけるプルーニングLDMの性能評価を行う。
関連論文リスト
- A Unified Implicit Attention Formulation for Gated-Linear Recurrent Sequence Models [54.50526986788175]
効率的なシーケンスモデリングの最近の進歩は、無注意層に繋がった。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
論文 参考訳(メタデータ) (2024-05-26T09:57:45Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [49.77027218855642]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - Self-Feature Regularization: Self-Feature Distillation Without Teacher
Models [0.0]
浅層層における機能学習を監督するために深層の特徴を用いるセルフフィーチャー正規化(sfr)を提案する。
まず,局所的な特徴にマッチする一般化l2損失と,チャネル次元においてより集中的に蒸留する多対一の手法を用いる。
論文 参考訳(メタデータ) (2021-03-12T15:29:00Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [55.28436972267793]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - A Gradient Flow Framework For Analyzing Network Pruning [11.247894240593693]
最近のネットワークプルーニング手法は、トレーニングの初期段階におけるプルーニングモデルに焦点を当てている。
モデルパラメータのノルムを通した重要度を統一するために勾配流を用いた一般的なフレームワークを開発する。
我々は,CIFAR-10/CIFAR-100でトレーニングしたVGG-13,MobileNet-V1,ResNet-56のいくつかのモデルについて検証を行った。
論文 参考訳(メタデータ) (2020-09-24T17:37:32Z) - On the Effect of Dropping Layers of Pre-trained Transformer Models [35.25025837133909]
我々は、事前訓練されたモデルにレイヤをドロップする戦略を探求し、下流のGLUEタスクに対するプルーニングの効果を観察する。
BERT、RoBERTa、XLNetのモデルを40%まで、元のパフォーマンスの98%を維持できたのです。
実験の結果,下層が下流のタスク性能を維持する上で最も重要であること,(ii)パラフレーズ検出や文類似性などのタスクは,レイヤの降下に対してより堅牢であること,(iii)異なる目的関数を用いてトレーニングされたモデルが異なる学習パターンを示し,レイヤが低下すること,などの興味深い観察結果が得られた。
論文 参考訳(メタデータ) (2020-04-08T07:09:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。