論文の概要: Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment
- arxiv url: http://arxiv.org/abs/2403.10799v4
- Date: Mon, 16 Dec 2024 18:31:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:23.466640
- Title: Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment
- Title(参考訳): ハイブリッド粒度重み評価による適応型大規模言語モデル構築に向けて
- Authors: Jun Liu, Zhenglun Kong, Pu Zhao, Changdi Yang, Hao Tang, Xuan Shen, Geng Yuan, Wei Niu, Wenbin Zhang, Xue Lin, Dong Huang, Yanzhi Wang,
- Abstract要約: 大規模言語モデル (LLM) の刈り取りにおける重み付け重要度の評価を, 微粒化と粗粒化にマージする手法であるHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
- 参考スコア(独自算出の注目度): 58.030196381554745
- License:
- Abstract: Structured pruning for large language models (LLMs) has garnered significant academic interest due to its ability to efficiently compress and accelerate LLMs by eliminating redundant weight groups at a coarse-grained granularity. Current structured pruning methods for LLMs typically depend on a singular granularity for assessing weight importance, resulting in notable performance degradation in downstream tasks. Intriguingly, our empirical investigations reveal that utilizing unstructured pruning, which achieves better performance retention by pruning weights at a finer granularity, \emph{i.e.}, individual weights, yields significantly varied sparse LLM structures when juxtaposed to structured pruning. This suggests that evaluating both holistic and individual assessment for weight importance is essential for LLM pruning. Building on this insight, we introduce the Hybrid-grained Weight Importance Assessment (HyWIA), a novel method that merges fine-grained and coarse-grained evaluations of weight importance for the pruning of LLMs. Leveraging an attention mechanism, HyWIA adaptively determines the optimal blend of granularity in weight importance assessments in an end-to-end pruning manner. Extensive experiments on LLaMA-V1/V2, Vicuna, Baichuan, and Bloom across various benchmarks demonstrate the effectiveness of HyWIA in pruning LLMs. For example, HyWIA surpasses the cutting-edge LLM-Pruner by an average margin of 2.82\% in accuracy across seven downstream tasks when pruning LLaMA-7B by 50\%.
- Abstract(参考訳): 大規模言語モデル (LLM) の構造化プルーニングは, 粗粒度で余剰重量群を除去し, LLMを効率的に圧縮・加速する能力により, 学術的な関心を集めている。
LLMの現在の構造化プルーニング法は、典型的には、ウェイト重要度を評価するための特異な粒度に依存し、下流タスクにおける顕著な性能劣化をもたらす。
興味深いことに,本研究では, より微細な粒度で重みを刈り取ることにより, より優れた性能維持を実現する非構造的刈り込みを用いることにより, 構造的刈り込みに重畳された場合, 個々の重みが顕著に変化したスパースLCM構造が得られることを示した。
このことは, LLMの刈り込みにおいて, 重量重要度に関する総合的評価と個人的評価が重要であることを示唆している。
この知見に基づいて, LLMの刈り取りにおける重量重要度評価を, 微粒度と粗粒度にマージするHybrid-fine Weight Importance Assessment (HyWIA) を導入する。
注意機構を活用することで、HyWIAは、エンドツーエンドのプルーニング方法で重量重み付け評価における粒度の最適混合を適応的に決定する。
LLaMA-V1/V2, Vicuna, Baichuan, Bloomの様々なベンチマークによる大規模な実験により, 刈り込みLDMにおけるHyWIAの有効性が示された。
例えば、HyWIAは、LLaMA-7Bを50倍にプルーニングする際に、7つの下流タスクで平均2.82倍の精度で最先端のLLM-Prunerを上回っている。
関連論文リスト
- Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Adaptive Activation-based Structured Pruning [5.445935252764351]
プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。
本稿では, 適応型, アクティベーションベース, 構造化プルーニング手法を用いて, 小型, 高精度, ハードウェア効率のモデルを自動的に, 効率的に生成する手法を提案する。
包括的評価により, 提案手法は, 最先端の構造化プルーニング作業よりも大幅に優れることが示された。
論文 参考訳(メタデータ) (2022-01-21T22:21:31Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。