論文の概要: ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models
- arxiv url: http://arxiv.org/abs/2310.04564v1
- Date: Fri, 6 Oct 2023 20:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 17:39:03.610217
- Title: ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models
- Title(参考訳): ReLUが逆戻り:大規模言語モデルでアクティベーションスパリティを爆発させる
- Authors: Iman Mirzadeh, Keivan Alizadeh, Sachin Mehta, Carlo C Del Mundo, Oncel
Tuzel, Golnoosh Samei, Mohammad Rastegari, Mehrdad Farajtabar
- Abstract要約: 数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
- 参考スコア(独自算出の注目度): 35.77063662562747
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) with billions of parameters have drastically
transformed AI applications. However, their demanding computation during
inference has raised significant challenges for deployment on
resource-constrained devices. Despite recent trends favoring alternative
activation functions such as GELU or SiLU, known for increased computation,
this study strongly advocates for reinstating ReLU activation in LLMs. We
demonstrate that using the ReLU activation function has a negligible impact on
convergence and performance while significantly reducing computation and weight
transfer. This reduction is particularly valuable during the memory-bound
inference step, where efficiency is paramount. Exploring sparsity patterns in
ReLU-based LLMs, we unveil the reutilization of activated neurons for
generating new tokens and leveraging these insights, we propose practical
strategies to substantially reduce LLM inference computation up to three times,
using ReLU activations with minimal performance trade-offs.
- Abstract(参考訳): 数十億のパラメータを持つ大規模言語モデル(llm)は、aiアプリケーションを大きく変えた。
しかし、推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を引き起こしている。
GELUやSiLUなどの代替活性化関数を支持する最近の傾向は計算量の増加で知られているが、この研究はLLMにおけるReLU活性化の復活を強く提唱している。
reluアクティベーション関数は計算量と重量移動量を大幅に削減しながら、収束と性能に無視できない影響を与える。
この削減は、効率が最重要となるメモリバウンド推論ステップにおいて特に有用である。
本稿では, ReLU ベースの LLM における空間パターンを探索し, 新たなトークンの生成と洞察の活用のために活性化ニューロンの再利用を明らかにし, 性能トレードオフを最小限に抑えた ReLU アクティベーションを用いて, LLM の推論計算を3倍に削減する実践的戦略を提案する。
関連論文リスト
- Hysteresis Activation Function for Efficient Inference [3.5223695602582614]
本稿では,Hysteresis Rectified Linear Unit (HLU) を提案する。
トレーニングと推論のための固定しきい値を持つ従来のアクティベーション関数とは異なり、HLUはバックプロパゲーションを洗練させる可変しきい値を使用する。
論文 参考訳(メタデータ) (2024-11-15T20:46:58Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
エッジデバイス上の大規模言語モデル(LLM)は、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題を呈している。
活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。
本稿では,CHESS(CHannel-wise thrEsholding and Selective Sparsification)による一般的なアクティベーションスカラー化手法を紹介する。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。