論文の概要: Learn To be Efficient: Build Structured Sparsity in Large Language
Models
- arxiv url: http://arxiv.org/abs/2402.06126v1
- Date: Fri, 9 Feb 2024 01:18:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:17:36.742890
- Title: Learn To be Efficient: Build Structured Sparsity in Large Language
Models
- Title(参考訳): 効率的になるために学ぶ - 大規模言語モデルにおける構造化スパーシティの構築
- Authors: Haizhong Zheng, Xiaoyan Bai, Beidi Chen, Fan Lai, Atul Prakash
- Abstract要約: 大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
本稿では,Learning-To-Efficient (LTE) アルゴリズムを提案する。
LTEは、スパシティとタスクパフォーマンスのトレードオフを向上します。
- 参考スコア(独自算出の注目度): 15.746754531419917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have achieved remarkable success with their
billion-level parameters, yet they incur high inference overheads. The
emergence of activation sparsity in LLMs provides a natural approach to reduce
this cost by involving only parts of the parameters for inference. Existing
methods only focus on utilizing this naturally formed activation sparsity,
overlooking the potential for further amplifying this inherent sparsity. In
this paper, we hypothesize that LLMs can learn to be efficient by achieving
more structured activation sparsity.To achieve this, we introduce a novel
algorithm, Learn-To-be-Efficient (LTE), designed to train efficiency-aware LLMs
to learn to activate fewer neurons and achieve a better trade-off between
sparsity and performance. Furthermore, unlike SOTA MoEfication methods, which
mainly focus on ReLU-based models, LTE can also be applied to LLMs like GPT and
LLaMA with soft activation functions. We evaluate LTE on four models and eleven
datasets. The experiments show that LTE achieves a better trade-off between
sparsity and task performance. For instance, LTE with LLaMA provides a
1.83x-2.59x FLOPs speed-up on language generation tasks, outperforming the
state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(llm)は10億レベルのパラメータで驚くべき成功を収めているが、高い推論オーバーヘッドを負っている。
LLMにおける活性化空間の出現は、推論のためのパラメータの一部だけを含むことによって、このコストを削減する自然なアプローチを提供する。
既存の方法は、この自然に形成された活性化空間の利用のみに焦点を合わせ、この固有空間をさらに増幅する可能性を見越している。
本稿では,LLMがより構造化された活性化空間を達成し,より効率的に学習できることを仮定し,その実現のために,Learning-To-be-Efficient(LTE)という新しいアルゴリズムを導入する。
さらに、主にReLUモデルに焦点を当てたSOTA MoEfication法とは異なり、LTEは、ソフトアクティベーション機能を備えたGPTやLLaMAといったLCMにも適用することができる。
LTEを4つのモデルと11のデータセットで評価する。
実験の結果、LTEはポーシャリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
例えば、LLaMAを使ったLTEは言語生成タスクで1.83x-2.59xのFLOPを高速化し、最先端の手法よりも優れている。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - When Linear Attention Meets Autoregressive Decoding: Towards More Effective and Efficient Linearized Large Language Models [13.061946833851605]
自己回帰型LDMに対する既存の線形注意法の有効性に関する総合的研究を行った。
本稿では,投機的復号化との整合性を保証する線形注意のための拡張手法を提案する。
提案手法は,LLaMAモデルにおけるパープレキシティの最大6.67低減と,従来の線形アテンション法と比較して,生成時の最大2$times$スピードアップを実現する。
論文 参考訳(メタデータ) (2024-06-11T15:34:43Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。