論文の概要: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
- arxiv url: http://arxiv.org/abs/2410.11988v2
- Date: Mon, 04 Nov 2024 02:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:46.814538
- Title: DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models
- Title(参考訳): DISP-LLM:大規模言語モデルのための次元非依存構造解析
- Authors: Shangqian Gao, Chi-Heng Lin, Ting Hua, Tang Zheng, Yilin Shen, Hongxia Jin, Yen-Chang Hsu,
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な成功を収めた。
これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
そこで本研究では,構造解析手法によって課される制約を緩和する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 62.98273649512654
- License:
- Abstract: Large Language Models (LLMs) have achieved remarkable success in various natural language processing tasks, including language modeling, understanding, and generation. However, the increased memory and computational costs associated with these models pose significant challenges for deployment on resource-limited devices. Structural pruning has emerged as a promising solution to reduce the costs of LLMs without requiring post-processing steps. Prior structural pruning methods either follow the dependence of structures at the cost of limiting flexibility, or introduce non-trivial additional parameters by incorporating different projection matrices. In this work, we propose a novel approach that relaxes the constraint imposed by regular structural pruning methods and eliminates the structural dependence along the embedding dimension. Our dimension-independent structural pruning method offers several benefits. Firstly, our method enables different blocks to utilize different subsets of the feature maps. Secondly, by removing structural dependence, we facilitate each block to possess varying widths along its input and output dimensions, thereby significantly enhancing the flexibility of structural pruning. We evaluate our method on various LLMs, including OPT, LLaMA, LLaMA-2, Phi-1.5, and Phi-2. Experimental results demonstrate that our approach outperforms other state-of-the-art methods, showing for the first time that structural pruning can achieve an accuracy similar to semi-structural pruning.
- Abstract(参考訳): 大規模言語モデル(LLM)は、言語モデリング、理解、生成を含む様々な自然言語処理タスクにおいて顕著な成功を収めた。
しかし、これらのモデルに関連するメモリと計算コストの増加は、リソース制限されたデバイスへの展開に重大な課題をもたらす。
構造化プルーニングは、後処理ステップを必要とせずにLCMのコストを削減するための有望なソリューションとして登場した。
以前の構造破砕法は、柔軟性を制限するコストで構造の依存に従うか、異なる射影行列を組み込んだ非自明な追加パラメータを導入するかのいずれかである。
そこで本研究では, 正規構造解析法によって課される制約を緩和し, 埋め込み次元に沿った構造依存を解消する手法を提案する。
我々の次元非依存構造解析法はいくつかの利点をもたらす。
まず,提案手法により,各ブロックが特徴マップの異なる部分集合を利用することができる。
第2に、構造的依存を取り除くことにより、各ブロックが入力と出力の寸法に沿って様々な幅を持つようにし、構造的プルーニングの柔軟性を著しく向上させる。
我々は,OPT,LLaMA,LLaMA-2,Phi-1.5,Phi-2を含む各種LLMについて検討を行った。
実験により,本手法は他の最先端手法よりも優れた性能を示し,構造的刈り込みが半構造的刈り込みと同様の精度を達成できることが初めて示された。
関連論文リスト
- Greedy Output Approximation: Towards Efficient Structured Pruning for LLMs Without Retraining [16.026565606764954]
我々は Transformer-based large language model (LLMs) のプルーニングプロセスを単純化する。
出力近似の最適化から導いた2つの推論対応プルーニング基準を提案する。
また,モデル再トレーニングを伴わずにプルーニングエラーを軽減するための2段階再構成手法も導入した。
論文 参考訳(メタデータ) (2024-07-26T23:53:59Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models [15.56145303022529]
大規模言語モデルに対する依存性を意識した半構造化スパシティ(DaSS)を提案する。
DaSSは構造依存をマグニチュードベースのプルーニングに組み込む。
LLaMA2, Mistral, Gemmaモデルファミリーの実証評価では、DaSSはSparseGPTとWandaの両方でハードウェアフレンドリーなN:Mスペーサティパターンを実現している。
論文 参考訳(メタデータ) (2024-05-03T09:13:13Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Fluctuation-based Adaptive Structured Pruning for Large Language Models [44.217363567065]
FLAP(FLuctuation-based Adaptive Structured Pruning)は、大規模言語モデルのためのトレーニング不要な構造化プルーニングフレームワークである。
ストレージを効果的に削減し、推論速度を向上することで、ハードウェアに優しい。
論文 参考訳(メタデータ) (2023-12-19T09:23:48Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。