論文の概要: Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
- arxiv url: http://arxiv.org/abs/2411.02335v1
- Date: Mon, 04 Nov 2024 17:59:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:45.872691
- Title: Sparsing Law: Towards Large Language Models with Greater Activation Sparsity
- Title(参考訳): スポーリング法: より大きなアクティベーションスポーシティを持つ大規模言語モデルを目指して
- Authors: Yuqi Luo, Chenyang Song, Xu Han, Yingfa Chen, Chaojun Xiao, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
- 参考スコア(独自算出の注目度): 62.09617609556697
- License:
- Abstract: Activation sparsity denotes the existence of substantial weakly-contributed elements within activation outputs that can be eliminated, benefiting many important applications concerned with large language models (LLMs). Although promoting greater activation sparsity within LLMs deserves deep studies, existing works lack comprehensive and quantitative research on the correlation between activation sparsity and potentially influential factors. In this paper, we present a comprehensive study on the quantitative scaling properties and influential factors of the activation sparsity within decoder-only Transformer-based LLMs. Specifically, we propose PPL-$p\%$ sparsity, a precise and performance-aware activation sparsity metric that is applicable to any activation function. Through extensive experiments, we find several important phenomena. Firstly, different activation functions exhibit comparable performance but opposite training-time sparsity trends. The activation ratio (i.e., $1-\mathrm{sparsity\ ratio}$) evolves as a convergent increasing power-law and decreasing logspace power-law with the amount of training data for SiLU-activated and ReLU-activated LLMs, respectively. These demonstrate that ReLU is more efficient as the activation function than SiLU and can leverage more training data to improve activation sparsity. Secondly, the activation ratio linearly increases with the width-depth ratio below a certain bottleneck point, indicating the potential advantage of a deeper architecture at a fixed parameter scale. Finally, at similar width-depth ratios, we surprisingly find that the limit value of activation sparsity varies weakly with the parameter scale, i.e., the activation patterns within LLMs are insensitive to the parameter scale. These empirical laws towards LLMs with greater activation sparsity have important implications for making LLMs more efficient and interpretable.
- Abstract(参考訳): アクティベーション・スパシティ(英: Activation sparsity)とは、大きな言語モデル(LLM)に関する多くの重要な応用に利益をもたらす、アクティベーション・アウトプット内の実質的な弱分散要素の存在を指す。
LLM内でのより大きな活性化間隔を促進することは、深い研究に値するが、既存の研究には、活性化間隔と潜在的影響因子の相関に関する包括的で定量的な研究が欠如している。
本稿では,デコーダのみを用いたトランスフォーマを用いたLCMにおいて,アクティベーション間隔の定量的なスケーリング特性と影響要因について包括的に検討する。
具体的には、任意のアクティベーション関数に適用可能な、正確かつパフォーマンスに配慮したアクティベーション・スパシティ・メトリックであるPPL-$p\%$スパシティーを提案する。
広範な実験を通じて、我々はいくつかの重要な現象を発見した。
第一に、異なるアクティベーション関数は同等のパフォーマンスを示すが、トレーニング時間間隔の傾向とは逆である。
活性化比(すなわち、1-\mathrm{sparsity\ ratio}$)は、SiLU-activated LLMとReLU-activated LLMのトレーニングデータの量とともに、収束性の増加するパワーローとログスペースパワーローの減少として進化する。
これらのことは、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを活用してアクティベーション空間を改善することができることを示している。
第二に、アクティベーション比は一定のボトルネック点以下で直線的に増加し、固定パラメータスケールでのより深いアーキテクチャの潜在的な利点を示す。
最後に, 同様の幅-深さ比で, LLM内の活性化パターンがパラメータスケールに敏感であることから, 活性化間隔の限界値がパラメータスケールと弱く変化することがわかった。
活性化間隔の大きいLLMに対するこれらの経験則は、LLMをより効率的かつ解釈可能なものにするために重要な意味を持つ。
関連論文リスト
- Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。
近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文 参考訳(メタデータ) (2024-10-04T16:05:14Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
エッジデバイス上の大規模言語モデル(LLM)は、計算オーバーヘッドとメモリ要求がかなり大きいため、大きな課題を呈している。
活性化スパーシフィケーションは、推論中に活性化されたニューロンの数を減らすことでこれらの課題を軽減することができる。
本稿では,CHESS(CHannel-wise thrEsholding and Selective Sparsification)による一般的なアクティベーションスカラー化手法を紹介する。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。
ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-06-24T13:41:08Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T20:01:33Z) - To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。