論文の概要: E-Sparse: Boosting the Large Language Model Inference through
Entropy-based N:M Sparsity
- arxiv url: http://arxiv.org/abs/2310.15929v1
- Date: Tue, 24 Oct 2023 15:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:09:55.055696
- Title: E-Sparse: Boosting the Large Language Model Inference through
Entropy-based N:M Sparsity
- Title(参考訳): E-Sparse:エントロピーベースのN:Mスパリティによる大規模言語モデル推論の強化
- Authors: Yun Li, Lin Niu, Xipeng Zhang, Kai Liu, Jianchen Zhu, Zhanhui Kang
- Abstract要約: 隠れ状態特徴の情報エントロピーをプルーニング計量設計、すなわちE-Sparseに導入する。
E-Sparseはチャネルの重要性を活用するために情報豊かさを使用し、さらにいくつかの新しいテクニックを取り入れて効果を発揮させる。
E-Sparseは、高密度モデル(最大1.53X)に対するモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できる。
- 参考スコア(独自算出の注目度): 6.818593390071482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional pruning methods are known to be challenging to work in Large
Language Models (LLMs) for Generative AI because of their unaffordable training
process and large computational demands. For the first time, we introduce the
information entropy of hidden state features into a pruning metric design,
namely E-Sparse, to improve the accuracy of N:M sparsity on LLM. E-Sparse
employs the information richness to leverage the channel importance, and
further incorporates several novel techniques to put it into effect: (1) it
introduces information entropy to enhance the significance of parameter weights
and input feature norms as a novel pruning metric, and performs N:M sparsity
without modifying the remaining weights. (2) it designs global naive shuffle
and local block shuffle to quickly optimize the information distribution and
adequately cope with the impact of N:M sparsity on LLMs' accuracy. E-Sparse is
implemented as a Sparse-GEMM on FasterTransformer and runs on NVIDIA Ampere
GPUs. Extensive experiments on the LLaMA family and OPT models show that
E-Sparse can significantly speed up the model inference over the dense model
(up to 1.53X) and obtain significant memory saving (up to 43.52%), with
acceptable accuracy loss.
- Abstract(参考訳): 従来のプルーニング手法は、その耐え難いトレーニングプロセスと大きな計算要求のために、生成型aiのために大きな言語モデル(llm)で作業することが難しいことが知られている。
LLMにおけるN:M間隔の精度を向上させるため,隠れ状態特徴の情報エントロピーをプルーニング計量設計(E-Sparse)に導入した。
e-sparseは、チャネルの重要性を活用するために情報豊かさを利用し、さらに、(1)パラメータ重みと入力特徴ノルムの重要度を高めるために情報エントロピーを導入し、残りの重みを変更せずにn:mスパーシティを実行するという、いくつかの新しい手法を取り入れている。
2) グローバルなナイーブシャッフルとローカルブロックシャッフルを設計し,情報配信を迅速に最適化し,N:M空間がLLMの精度に与える影響を適切に対処する。
E-SparseはFasterTransformer上のSparse-GEMMとして実装され、NVIDIA Ampere GPU上で動作する。
LLaMAファミリーとOPTモデルの大規模な実験により、E-Sparseは高密度モデル(最大1.53X)よりもモデル推論を著しく高速化し、大きなメモリ節約(最大43.52%)を得ることができ、精度の低下を許容できることが示された。
関連論文リスト
- Revisiting Zeroth-Order Optimization for Memory-Efficient LLM
Fine-Tuning: A Benchmark [170.47660885570463]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Sparse Fine-tuning for Inference Acceleration of Large Language Models [48.285897264669984]
大規模言語モデル(LLM)の精密細粒度調整の問題点について考察する。
蒸留型損失の詳細な研究を行い,L2に基づく蒸留手法をSquareHeadと呼ぶ。
MPTテキスト生成では、細かな微調整が精度低下なしに75%の間隔に到達できることを初めて示す。
論文 参考訳(メタデータ) (2023-10-10T18:28:38Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Fast and Accurate Reduced-Order Modeling of a MOOSE-based Additive
Manufacturing Model with Operator Learning [1.4528756508275622]
本研究は, 高速かつ高精度な減階モデル (ROM) を構築し, 加法製造 (AM) モデルを構築することを目的とする。
従来のディープニューラルネットワーク(DNN)ベースのROMに対して,これらのOL法の性能をベンチマークした。
論文 参考訳(メタデータ) (2023-08-04T17:00:34Z) - LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient
Inference in Large-Scale Generative Language Models [9.467007917417456]
大規模生成言語モデルに適した効率的な推論フレームワークを提案する。
我々は、アクティベーションの完全精度を維持しながら、重量のみの量子化戦略を採用する。
LUT-GEMMと呼ばれる提案したカーネルは、量子化された行列乗法を高速化する。
論文 参考訳(メタデータ) (2022-06-20T03:48:17Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - NxMTransformer: Semi-Structured Sparsification for Natural Language
Understanding via ADMM [16.464030458567187]
我々はNxMTransformerと呼ばれる新しい学習フレームワークを導入し、事前訓練された言語モデル上でNxM半構造化空間を誘導する。
我々は,制約付き最適化問題としてNxM空間を定式化し,下流タスクの最適化に Alternating Direction Method of Multipliers (ADMM) を用いることを提案する。
提案手法は,GLUEスコアの1.7ポイントの精度を現行の手法よりも高い精度で達成できる。
論文 参考訳(メタデータ) (2021-10-28T17:43:06Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient Nearest Neighbor Language Models [114.40866461741795]
非パラメトリックニューラルネットワークモデル(NLM)は、外部データストアを用いてテキストの予測分布を学習する。
比較性能を維持しながら、推論速度の最大6倍の高速化を実現する方法を示す。
論文 参考訳(メタデータ) (2021-09-09T12:32:28Z) - CPM-2: Large-scale Cost-effective Pre-trained Language Models [71.59893315671997]
本稿では, PLM を用いた事前学習, 微調整, 推論の効率性問題に対処するための費用対効果技術について述べる。
我々は,既存のPLMをスクラッチからトレーニングする代わりに活用することで,事前学習プロセスの促進を目的とした知識継承を導入する。
計算資源が限られている大規模PLMに対して,新しい推論ツールキット,すなわちInfMoEを実装した。
論文 参考訳(メタデータ) (2021-06-20T15:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。