論文の概要: Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
- arxiv url: http://arxiv.org/abs/2403.10799v2
- Date: Tue, 14 May 2024 12:50:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:01:48.977855
- Title: Efficient Pruning of Large Language Model with Adaptive Estimation Fusion
- Title(参考訳): 適応的推定融合を用いた大規模言語モデルの効率的なプルーニング
- Authors: Jun Liu, Chao Wu, Changdi Yang, Hao Tang, Haoye Dong, Zhenglun Kong, Geng Yuan, Wei Niu, Dong Huang, Yanzhi Wang,
- Abstract要約: 本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。
複雑な構造と多層構造の結果に基づいて、粗粒度と細粒度の推定を適応的に融合させることができる。
その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。
- 参考スコア(独自算出の注目度): 46.523978724674144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have become crucial for many generative downstream tasks, leading to an inevitable trend and significant challenge to deploy them efficiently on resource-constrained devices. Structured pruning is a widely used method to address this challenge. However, when dealing with the complex structure of the multiple decoder layers, general methods often employ common estimation approaches for pruning. These approaches lead to a decline in accuracy for specific downstream tasks. In this paper, we introduce a simple yet efficient method that adaptively models the importance of each substructure. Meanwhile, it can adaptively fuse coarse-grained and finegrained estimations based on the results from complex and multilayer structures. All aspects of our design seamlessly integrate into the endto-end pruning framework. Our experimental results, compared with state-of-the-art methods on mainstream datasets, demonstrate average accuracy improvements of 1.1%, 1.02%, 2.0%, and 1.2% for LLaMa-7B,Vicuna-7B, Baichuan-7B, and Bloom-7b1, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの生成的な下流タスクにおいて重要なものとなり、リソースに制約のあるデバイスに効率的にデプロイする上で、避けられない傾向と重大な課題に繋がった。
構造化プルーニング(Structured pruning)は、この課題に対処するために広く使われている手法である。
しかし、複数のデコーダ層の複雑な構造を扱う場合、一般的な手法ではプルーニングに一般的な推定手法を用いることが多い。
これらのアプローチは、特定の下流タスクの精度を低下させる。
本稿では,各サブ構造の重要性を適応的にモデル化する簡易かつ効率的な手法を提案する。
一方、複雑な構造と多層構造から得られた結果に基づいて、粗粒度と微粒度の推定を適応的に融合させることができる。
設計のすべての側面は、エンドツーエンドのプルーニングフレームワークにシームレスに統合されます。
その結果,LLaMa-7B,Vicuna-7B,Baichuan-7B,Bloom-7b1の平均精度は1.1%,1.02%,2.0%,1.2%向上した。
関連論文リスト
- Implicit Generative Prior for Bayesian Neural Networks [8.013264410621357]
複雑なデータ構造のための新しいニューラルネットワーク型経験ベイズ(NA-EB)フレームワークを提案する。
NA-EBフレームワークは変分推論と勾配上昇アルゴリズムを組み合わせたものである。
各種タスクの広範囲な評価を通じて,本フレームワークの実践的応用を実証する。
論文 参考訳(メタデータ) (2024-04-27T21:00:38Z) - ECoFLaP: Efficient Coarse-to-Fine Layer-Wise Pruning for Vision-Language
Models [70.45441031021291]
LVLM(Large Vision-Language Models)は、様々なモダリティから豊富な情報を統合することで、世界を包括的に理解することができる。
LVLMは計算/エネルギーの膨大なコストと炭素消費のためにしばしば問題となる。
本稿では,LVLMの2段間粗大な重み付け法であるECoFLaP(Efficient Coarse-to-Fine LayerWise Pruning)を提案する。
論文 参考訳(メタデータ) (2023-10-04T17:34:00Z) - Distributed Pruning Towards Tiny Neural Networks in Federated Learning [12.63559789381064]
FedTinyは、フェデレートラーニングのための分散プルーニングフレームワークである。
メモリとコンピューティングに制約のあるデバイスのための、特殊な小さなモデルを生成する。
2.61%の精度向上を実現し、計算コストを95.91%削減した。
論文 参考訳(メタデータ) (2022-12-05T01:58:45Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Adaptive Activation-based Structured Pruning [5.445935252764351]
プルーニングは、複雑なディープラーニングモデルを圧縮してリソース制約のあるエッジデバイスにデプロイするための、有望なアプローチである。
本稿では, 適応型, アクティベーションベース, 構造化プルーニング手法を用いて, 小型, 高精度, ハードウェア効率のモデルを自動的に, 効率的に生成する手法を提案する。
包括的評価により, 提案手法は, 最先端の構造化プルーニング作業よりも大幅に優れることが示された。
論文 参考訳(メタデータ) (2022-01-21T22:21:31Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - Self Normalizing Flows [65.73510214694987]
本稿では,各層における学習された近似逆数により,勾配の高価な項を置き換えることで,フローの正規化を訓練するための柔軟なフレームワークを提案する。
これにより、各レイヤの正確な更新の計算複雑性が$mathcalO(D3)$から$mathcalO(D2)$に削減される。
実験により,これらのモデルは非常に安定であり,正確な勾配値と類似したデータ可能性値に最適化可能であることが示された。
論文 参考訳(メタデータ) (2020-11-14T09:51:51Z) - SSMBA: Self-Supervised Manifold Based Data Augmentation for Improving
Out-of-Domain Robustness [66.37077266814822]
自然言語では、基礎となるデータ多様体に留まる新しい例を生成することは困難である。
本稿では,合成学習例を生成するためのデータ拡張手法であるSSMBAを紹介する。
3つのタスクと9つのデータセットにわたるベンチマークの実験では、SSMBAは既存のデータ拡張メソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2020-09-21T22:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。