論文の概要: ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs
- arxiv url: http://arxiv.org/abs/2402.03804v1
- Date: Tue, 6 Feb 2024 08:45:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 15:58:18.485799
- Title: ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs
- Title(参考訳): ReLU$^2$ Wins: Sparse LLMの効率的な活性化関数の発見
- Authors: Zhengyan Zhang, Yixin Song, Guanghui Yu, Xu Han, Yankai Lin, Chaojun
Xiao, Chenyang Song, Zhiyuan Liu, Zeyu Mi, Maosong Sun
- Abstract要約: 本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
- 参考スコア(独自算出の注目度): 91.31204876440765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sparse computation offers a compelling solution for the inference of Large
Language Models (LLMs) in low-resource scenarios by dynamically skipping the
computation of inactive neurons. While traditional approaches focus on
ReLU-based LLMs, leveraging zeros in activation values, we broaden the scope of
sparse LLMs beyond zero activation values. We introduce a general method that
defines neuron activation through neuron output magnitudes and a tailored
magnitude threshold, demonstrating that non-ReLU LLMs also exhibit sparse
activation. To find the most efficient activation function for sparse
computation, we propose a systematic framework to examine the sparsity of LLMs
from three aspects: the trade-off between sparsity and performance, the
predictivity of sparsity, and the hardware affinity. We conduct thorough
experiments on LLMs utilizing different activation functions, including ReLU,
SwiGLU, ReGLU, and ReLU$^2$. The results indicate that models employing
ReLU$^2$ excel across all three evaluation aspects, highlighting its potential
as an efficient activation function for sparse LLMs. We will release the code
to facilitate future research.
- Abstract(参考訳): スパース計算は、非活性ニューロンの計算を動的にスキップすることで、低リソースシナリオにおけるLarge Language Models(LLM)の推論に魅力的なソリューションを提供する。
従来のアプローチでは、活性化値のゼロを活用するReLUベースのLCMに重点を置いているが、ゼロアクティベーション値を超えたスパースLSMの範囲を広げている。
我々は、ニューロン出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を紹介し、非ReLU LLMもスパース活性化を示すことを示した。
スパース計算における最も効率的なアクティベーション関数を見つけるために,スポーシティと性能のトレードオフ,スポーシティの予測率,ハードウェア親和性という3つの側面からLCMの疎さを調べるための体系的枠組みを提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
その結果,ReLU$^2$モデルが3つの評価点すべてで優れており,スパースLCMの効率的な活性化機能としての可能性を強調した。
今後の研究を促進するためにコードを公開します。
関連論文リスト
- Can Large Language Models Play Games? A Case Study of A Self-Play
Approach [61.15761840203145]
LLM(Large Language Models)は、インターネットからの広範なデータを利用して、幅広い事前知識を格納する。
Monte-Carlo Tree Search (MCTS)は、信頼性の高い意思決定ソリューションを提供する検索アルゴリズムである。
この研究は、ターンベースのゼロサムゲームを効率的に解決するために、MCTSセルフプレイでLLMを活性化させる革新的なアプローチを導入している。
論文 参考訳(メタデータ) (2024-03-08T19:16:29Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity
within Large Language Models [76.81756526165533]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。
本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Learn To be Efficient: Build Structured Sparsity in Large Language
Models [15.746754531419917]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
本稿では,Learning-To-Efficient (LTE) アルゴリズムを提案する。
実験の結果、LTEはスパーシリティとタスクパフォーマンスのトレードオフを良くすることがわかった。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z) - ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T20:01:33Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。