論文の概要: Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment
- arxiv url: http://arxiv.org/abs/2403.10799v4
- Date: Mon, 16 Dec 2024 18:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:23.466640
- Title: Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment
- Title(参考訳): ハイブリッド粒度重み評価による適応型大規模言語モデル構築に向けて
- Authors: Jun Liu, Zhenglun Kong, Pu Zhao, Changdi Yang, Hao Tang, Xuan Shen, Geng Yuan, Wei Niu, Wenbin Zhang, Xue Lin, Dong Huang, Yanzhi Wang,
- Abstract要約: 大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
- 参考スコア(独自算出の注目度): 58.030196381554745
- License:
- Abstract: Structured pruning for large language models (LLMs) has garnered significant academic interest due to its ability to efficiently compress and accelerate LLMs by eliminating redundant weight groups at a coarse-grained granularity. Current structured pruning methods for LLMs typically depend on a singular granularity for assessing weight importance, resulting in notable performance degradation in downstream tasks. Intriguingly, our empirical investigations reveal that utilizing unstructured pruning, which achieves better performance retention by pruning weights at a finer granularity, \emph{i.e.}, individual weights, yields significantly varied sparse LLM structures when juxtaposed to structured pruning. This suggests that evaluating both holistic and individual assessment for weight importance is essential for LLM pruning. Building on this insight, we introduce the Hybrid-grained Weight Importance Assessment (HyWIA), a novel method that merges fine-grained and coarse-grained evaluations of weight importance for the pruning of LLMs. Leveraging an attention mechanism, HyWIA adaptively determines the optimal blend of granularity in weight importance assessments in an end-to-end pruning manner. Extensive experiments on LLaMA-V1/V2, Vicuna, Baichuan, and Bloom across various benchmarks demonstrate the effectiveness of HyWIA in pruning LLMs. For example, HyWIA surpasses the cutting-edge LLM-Pruner by an average margin of 2.82\% in accuracy across seven downstream tasks when pruning LLaMA-7B by 50\%.
- Abstract(参考訳): 大規模言語モデル (LLM) の構造化プルーニングは, 粗粒度で余剰重量群を除去し, LLMを効率的に圧縮・加速する能力により, 学術的な関心を集めている。
LLMの現在の構造化プルーニング法は、典型的には、ウェイト重要度を評価するための特異な粒度に依存し、下流タスクにおける顕著な性能劣化をもたらす。
興味深いことに,本研究では, より微細な粒度で重みを刈り取ることにより, より優れた性能維持を実現する非構造的刈り込みを用いることにより, 構造的刈り込みに重畳された場合, 個々の重みが顕著に変化したスパースLCM構造が得られることを示した。
このことは, LLMの刈り込みにおいて, 重量重要度に関する総合的評価と個人的評価が重要であることを示唆している。
この知見に基づいて, LLMの刈り取りにおける重量重要度評価を, 微粒度と粗粒度にマージするHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
注意機構を活用することで、HyWIAは、エンドツーエンドのプルーニング方法で重量重み付け評価における粒度の最適混合を適応的に決定する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
例えば、HyWIAは、LLaMA-7Bを50倍にプルーニングする際に、7つの下流タスクで平均2.82倍の精度で最先端のLLM-Prunerを上回っている。
関連論文リスト
- SlimGPT: Layer-wise Structured Pruning for Large Language Models [15.252798256418279]
Batched Greedy Pruning for rapid and near-optimal Pruning
インクリメンタルプルーニング比(Incrmental Pruning Ratio) - 非一様プルーニング戦略で、性能劣化を低減する。
LLaMAベンチマークの実験結果から,SlimGPTは他の手法よりも優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2024-12-24T02:49:50Z) - Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。
LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。
モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文 参考訳(メタデータ) (2024-12-19T18:08:04Z) - Densing Law of LLMs [81.06644243978101]
大規模言語モデル(LLM)は人工知能のマイルストーンとして登場し、モデルのサイズが大きくなるにつれてその性能が向上する。
本稿では,異なるスケールでLLMの品質を評価するための新しい指標として,「テクトキャパシティ密度」の概念を紹介する。
論文 参考訳(メタデータ) (2024-12-05T16:31:13Z) - Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - A deeper look at depth pruning of LLMs [49.30061112976263]
大規模言語モデル(LLM)は、トレーニングにはリソース集約的だが、本番環境でのデプロイにはよりコストがかかる。
最近の研究は、ブロックの重要性を推定するために、安価なプロキシに基づいてLSMのブロックをプルークしようと試みている。
適応メトリクスはタスク間のパフォーマンスのトレードオフを示すことを示す。
論文 参考訳(メタデータ) (2024-07-23T08:40:27Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。