論文の概要: ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models
- arxiv url: http://arxiv.org/abs/2402.13516v2
- Date: Tue, 27 Feb 2024 07:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 20:50:37.561167
- Title: ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models
- Title(参考訳): prosparse: 大規模言語モデルにおける内在的アクティベーションスパーシティの導入と拡張
- Authors: Chenyang Song, Xu Han, Zhengyan Zhang, Shengding Hu, Xiyu Shi, Kuai
Li, Chen Chen, Zhiyuan Liu, Guangli Li, Tao Yang, Maosong Sun
- Abstract要約: 活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
- 参考スコア(独自算出の注目度): 76.81756526165533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation sparsity refers to the existence of considerable
weakly-contributed elements among activation outputs. As a prevalent property
of the models using the ReLU activation function, it has been proven a
promising paradigm to boost model inference efficiency. Nevertheless, most
large language models (LLMs) adopt activation functions without intrinsic
activation sparsity (e.g., GELU and Swish). Some recent efforts have explored
introducing ReLU or its variants as the substitutive activation function to
help LLMs achieve activation sparsity and inference acceleration, but few can
simultaneously obtain high sparsity and comparable model performance. This
paper introduces an effective sparsification method named "ProSparse" to push
LLMs for higher activation sparsity without decreasing model performance.
Specifically, after substituting the activation function of LLMs with ReLU,
ProSparse adopts progressive sparsity regularization with a factor smoothly
increasing along sine curves in multiple stages. This can enhance activation
sparsity and alleviate performance degradation by avoiding radical shifts in
activation distribution. With ProSparse, we obtain high sparsity of 89.32% and
88.80% for LLaMA2-7B and LLaMA2-13B, respectively, achieving comparable
performance to their original Swish-activated versions. Our inference
acceleration experiments further demonstrate the practical acceleration brought
by higher activation sparsity.
- Abstract(参考訳): アクティベーションスパーシティは、アクティベーションアウトプットの間にかなりの弱結合要素が存在することを意味する。
ReLUアクティベーション関数を用いたモデルの一般的な特性として、モデル推論効率を高めるための有望なパラダイムであることが証明されている。
それにもかかわらず、ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能(GELUやSwishなど)を採用している。
最近の研究では、LLMが活性化空間と推論加速度を達成するのに役立つ代替活性化関数としてReLUやその変種を導入することを検討しているが、高い間隔と同等のモデル性能を同時に得られるものはほとんどない。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース方式を提案する。
具体的には、LLMの活性化関数をReLUで置換した後、ProSparseは複数の段階において正弦曲線に沿って滑らかに増加する因子で進行性スパーシティ正則化を採用する。
これにより、アクティベーション分布の急変を避けることにより、アクティベーションスパーシティを高め、パフォーマンス低下を軽減することができる。
ProSparse では LLaMA2-7B と LLaMA2-13B に対して 89.32% と 88.80% の高間隔が得られる。
さらに, 高い活性化スパース性によってもたらされる実用的加速を推算加速度実験により実証した。
関連論文リスト
- Learn To be Efficient: Build Structured Sparsity in Large Language
Models [15.746754531419917]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
本稿では,Learning-To-Efficient (LTE) アルゴリズムを提案する。
実験の結果、LTEはスパーシリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language
Models [45.516380480706445]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T20:01:33Z) - Saturated Non-Monotonic Activation Functions [21.16866749728754]
SGELU, SSiLU, SMishはGELU, SiLU, Mishの負の部分とReLUの正の部分から構成される。
CIFAR-100における画像分類実験の結果,提案するアクティベーション関数は,複数のディープラーニングアーキテクチャにおいて,高い有効性と,最先端のベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-05-12T15:01:06Z) - VRA: Variational Rectified Activation for Out-of-distribution Detection [45.804178022641764]
アウト・オブ・ディストリビューション(OOD)検出は、オープンな世界で信頼性の高い機械学習システムを構築する上で重要である。
ReActはモデル過信に対処する典型的な効果的な手法であり、高いアクティベーションを減らし、流通とOODのギャップを増大させる。
本稿では,これらの抑制と増幅操作を一括関数を用いてシミュレートする「変分整定活性化(VRA)'」という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-23T00:45:14Z) - Transformers with Learnable Activation Functions [63.98696070245065]
我々は、Rational Activation Function (RAF) を用いて、入力データに基づいてトレーニング中の最適なアクティベーション関数を学習する。
RAFは、学習されたアクティベーション関数に従って事前学習されたモデルを分析し、解釈するための新しい研究方向を開く。
論文 参考訳(メタデータ) (2022-08-30T09:47:31Z) - Activation Functions: Dive into an optimal activation function [1.52292571922932]
既存のアクティベーション関数の重み付け和として定義することで、最適なアクティベーション関数を求める。
この研究は、ReLU、tanh、 sinという3つのアクティベーション関数を3つの人気のある画像データセットに使用しています。
論文 参考訳(メタデータ) (2022-02-24T12:44:11Z) - Improving Adversarial Robustness via Channel-wise Activation Suppressing [65.72430571867149]
深層ニューラルネットワーク(DNN)を用いたセキュアで堅牢な学習において,その逆例とその活性化に関する研究が注目されている。
本稿では,チャネルワイドアクティベーションの観点から,敵対的事例の新たな特徴を2つ挙げる。
我々は,CASが本質的に敵の活性化を抑制するモデルを訓練でき,既存の防御手法にも容易に適用でき,より堅牢性を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-03-11T03:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。