論文の概要: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11988v1
- Date: Tue, 15 Oct 2024 18:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:09.940040
- Title: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
- Title(参考訳): DISP-LLM:大規模言語モデルのための次元非依存構造解析
- Authors: Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 62.98273649512654
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable success in various natural language processing tasks, including language modeling, understanding, and generation. However, the increased memory and computational costs associated with these models pose significant challenges for deployment on resource-limited devices. Structural pruning has emerged as a promising solution to reduce the costs of LLMs without requiring post-processing steps. Prior structural pruning methods either follow the dependence of structures at the cost of limiting flexibility, or introduce non-trivial additional parameters by incorporating different projection matrices. In this work, we propose a novel approach that relaxes the constraint imposed by regular structural pruning methods and eliminates the structural dependence along the embedding dimension. Our dimension-independent structural pruning method offers several benefits. Firstly, our method enables different blocks to utilize different subsets of the feature maps. Secondly, by removing structural dependence, we facilitate each block to possess varying widths along its input and output dimensions, thereby significantly enhancing the flexibility of structural pruning. We evaluate our method on various LLMs, including OPT, LLaMA, LLaMA-2, Phi-1.5, and Phi-2. Experimental results demonstrate that our approach outperforms other state-of-the-art methods, showing for the first time that structural pruning can achieve an accuracy similar to semi-structural pruning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語モデリング、理解、生成を含む様々な自然言語処理タスクにおいて顕著な成功を収めた。
しかし、これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
構造化プルーニングは、後処理ステップを必要とせずにLCMのコストを削減するための有望なソリューションとして登場した。
以前の構造破砕法は、柔軟性を制限するコストで構造の依存に従うか、異なる射影行列を組み込んだ非自明な追加パラメータを導入するかのいずれかである。
そこで本研究では, 正規構造解析法によって課される制約を緩和し, 埋め込み次元に沿った構造依存を解消する手法を提案する。
我々の次元非依存構造解析法はいくつかの利点をもたらす。
まず,提案手法により,各ブロックが特徴マップの異なる部分集合を利用することができる。
第2に、構造的依存を取り除くことにより、各ブロックが入力と出力の寸法に沿って様々な幅を持つようにし、構造的プルーニングの柔軟性を著しく向上させる。
我々は,OPT,LLaMA,LLaMA-2,Phi-1.5,Phi-2を含む各種LLMについて検討を行った。
実験により,本手法は他の最先端手法よりも優れた性能を示し,構造的刈り込みが半構造的刈り込みと同様の精度を達成できることが初めて示された。
関連論文リスト
- Optimization-based Structural Pruning for Large Language Models without Back-Propagation [57.9629676017527]
本稿では,Large-Language Models (LLMs) を用いた最適化に基づく構造解析手法を提案する。
本手法は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
提案手法は,A100 GPUの13Bモデルに対して,約35GBのメモリで2.7時間動作する。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - The LLM Surgeon [33.90611088414982]
我々は、スクラッチから小さなモデルをトレーニングする代替手段として、既存の事前訓練モデルのデータ駆動圧縮について検討する。
我々は、非構造的、半構造的、構造的プルーニングのための一般的なフレームワークを提供し、重み間の相関性を高めるために、重み更新を改善する。
提案手法では,OPTモデルとLlamav2-7Bの行と列を20%~30%削減できる。
論文 参考訳(メタデータ) (2023-12-28T18:59:09Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。