論文の概要: ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.16635v1
- Date: Mon, 24 Jun 2024 13:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 14:44:42.797589
- Title: ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models
- Title(参考訳): ShadowLLM: 大規模言語モデルのための予測型コンテキストスポーザリティ
- Authors: Yash Akhauri, Ahmed F AbouElhamayed, Jordan Dotzel, Zhiru Zhang, Alexander M Rush, Safeen Huda, Mohamed S Abdelfattah,
- Abstract要約: 我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
- 参考スコア(独自算出の注目度): 67.97667465509504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high power consumption and latency-sensitive deployments of large language models (LLMs) have motivated techniques like quantization and sparsity. Contextual sparsity, where the sparsity pattern is input-dependent, is crucial in LLMs because the permanent removal of attention heads or neurons from LLMs can significantly degrade accuracy. Prior work has attempted to model contextual sparsity using neural networks trained to predict activation magnitudes, which can be used to dynamically prune structures with low predicted activation magnitude. In this paper, we look beyond magnitude-based pruning criteria to assess attention head and neuron importance in LLMs. We developed a novel predictor called ShadowLLM, which can shadow the LLM behavior and enforce better sparsity patterns, resulting in over 15% improvement in end-to-end accuracy without increasing latency compared to previous methods. ShadowLLM achieves up to a 20\% speed-up over the state-of-the-art DejaVu framework. These enhancements are validated on models with up to 30 billion parameters. Our code is available at \href{https://github.com/abdelfattah-lab/shadow_llm/}{ShadowLLM}.
- Abstract(参考訳): 大規模言語モデル(LLM)の高消費電力化と遅延に敏感なデプロイメントは、量子化やスパシティといったテクニックを動機付けている。
LLMから注意頭やニューロンを永久的に除去することは、LLMの精度を著しく低下させる可能性がある。
従来の研究は、アクティベーションのマグニチュードを予測するためにトレーニングされたニューラルネットワークを使用して、コンテキスト空間のスパーシティをモデル化しようと試みており、アクティベーションのマグニチュードが低い動的プーン構造に使用できる。
本稿では,LLMにおける注意頭とニューロンの重要性を評価するために,等級に基づくプルーニング基準を超えて検討する。
そこで我々は,従来の手法に比べて遅延を増大させることなく,LLMの動作をシャドウイングし,空間パターンを改良し,エンドツーエンドの精度を15%以上向上させることができるShadowLLMという新しい予測器を開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20倍のスピードアップを達成する。
これらの拡張は、最大300億のパラメータを持つモデルで検証される。
私たちのコードは \href{https://github.com/abdelfattah-lab/shadow_llm/}{ShadowLLM} で利用可能です。
関連論文リスト
- Achieving Sparse Activation in Small Language Models [9.05326883263473]
スパースアクティベーション(sparse activation)は、再訓練や適応をすることなく、LLM(Large Language Models)の計算コストを削減できる手法である。
本稿では,小言語モデル(SLM)におけるスパースアクティベーションの実現を目指す。
まず, ニューロンの出力大小をベースとしたLLMのスパース活性化スキームはSLMには適用できないことを示し, その属性スコアに基づいてニューロンを活性化することがよりよい選択肢であることを示した。
論文 参考訳(メタデータ) (2024-06-03T03:21:49Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time [90.96447932006822]
数十億のパラメータを持つ大規模言語モデル(LLM)が、エキサイティングなAIアプリケーションに新たな波を巻き起こした。
既存の方法は、コストのかかる再訓練が必要か、LLMのコンテキスト内学習能力を捨てるか、ウォールクロックのスピードアップを達成できないかのいずれかである。
DejaVuは,各層に与えられた入力をリアルタイムで予測するために,低コストなアルゴリズムを用いたシステムである。
論文 参考訳(メタデータ) (2023-10-26T05:01:09Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。