論文の概要: CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification
- arxiv url: http://arxiv.org/abs/2409.01366v1
- Date: Mon, 2 Sep 2024 16:41:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:11:05.424223
- Title: CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification
- Title(参考訳): CHESS: Channel-Wise ThresholdingとSelective SparsificationによるLLM推論の最適化
- Authors: Junhui He, Shangyu Wu, Weidong Wen, Chun Jason Xue, Qingan Li,
- Abstract要約: エッジデバイス上の大規模言語モデル(LLM)は、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題を呈している。
活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。
本稿では,CHESS(CHannel-wise thrEsholding and Selective Sparsification)による一般的なアクティベーションスカラー化手法を紹介する。
- 参考スコア(独自算出の注目度): 7.8430836312711465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) on edge devices presents significant challenges due to the substantial computational overhead and memory requirements. Activation sparsification can mitigate these challenges by reducing the number of activated neurons during inference. Existing methods typically employ thresholding-based sparsification based on the statistics of activation tensors. However, these methods do not explicitly model the impact of activation sparsification on performance, leading to suboptimal performance degradation. To address this issue, this paper reformulates the activation sparsification problem by introducing a new objective that optimizes the sparsification decisions. Building on this reformulation, we propose CHESS, a general activation sparsification approach via CHannel-wise thrEsholding and Selective Sparsification. First, channel-wise thresholding assigns a unique threshold to each activation channel in the feed-forward network (FFN) layers. Then, selective sparsification involves applying thresholding-based activation sparsification to specific layers within the attention modules. Finally, we detail the implementation of sparse kernels to accelerate LLM inference. Experimental results demonstrate that the proposed CHESS achieves lower performance degradation over 8 downstream tasks while activating fewer parameters compared to existing methods, thus speeding up the LLM inference by up to 1.27x.
- Abstract(参考訳): エッジデバイスに大規模言語モデル(LLM)をデプロイすることは、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題となる。
活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。
既存の手法では、アクティベーションテンソルの統計に基づく閾値に基づくスペーシングが一般的である。
しかし、これらの手法は、アクティベーションスペーシフィケーションがパフォーマンスに与える影響を明示的にモデル化するものではない。
この問題に対処するため,本論文では,スパーシフィケーション決定を最適化する新たな目的を導入することにより,アクティベーションスペーシフィケーション問題を再考する。
本稿では,この改革を基礎として,Channel-wise thrEsholding と Selective Sparsification による一般活性化スカラー化手法であるCHESSを提案する。
第一に、チャネルワイドの閾値付けは、フィードフォワードネットワーク(FFN)層内の各アクティベーションチャネルにユニークな閾値を割り当てる。
次に、選択的なスペーシフィケーションは、アテンションモジュール内の特定の層に閾値に基づくアクティベーションスペーシフィケーションを適用する。
最後に,LLM推論を高速化するスパースカーネルの実装について述べる。
実験結果から,提案したCHESSは,既存の手法に比べてパラメータを小さくし,最大1.27倍の高速化を実現していることがわかった。
関連論文リスト
- An efficient framework based on large foundation model for cervical cytopathology whole slide image screening [13.744580492120749]
本稿では,教師なし・弱教師付き学習によるWSIレベルラベルのみを用いた頚部細胞病理学WSI分類のための効率的なフレームワークを提案する。
CSDおよびFNAC 2019データセットで実施された実験は、提案手法が様々なMIL手法の性能を高め、最先端(SOTA)性能を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T08:21:54Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - ProAct: Progressive Training for Hybrid Clipped Activation Function to Enhance Resilience of DNNs [0.4660328753262075]
State-of-the-artメソッドは、ニューロンワイドまたは層ワイドクリッピングアクティベーション機能を提供する。
層単位で切断されたアクティベーション関数はDNNのレジリエンスを高いビット誤り率で保持することはできない。
本稿では,ニューロンワイド法とレイヤバイ層法を統合したハイブリッドクリップ型アクティベーション関数を提案する。
論文 参考訳(メタデータ) (2024-06-10T14:31:38Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T20:01:33Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Exploiting Activation Sparsity with Dense to Dynamic-k Mixture-of-Experts Conversion [4.716845031095804]
トランスフォーマーモデルは大きなアクティベーション間隔を示し、推論コストを削減するために利用することができる。
本研究では,基本モデルの活性化間隔を適切に正規化することにより,変換効率を大幅に向上できることを示す。
また、より効果的な動的k専門家選択ルールを導入し、実行された専門家の数をトーケンベースで調整する。
論文 参考訳(メタデータ) (2023-10-06T16:34:51Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。