Fugu-MT 論文翻訳(概要): ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

論文の概要: ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models

arxiv url: http://arxiv.org/abs/2402.13516v2
Date: Tue, 27 Feb 2024 07:27:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-28 20:50:37.561167
Title: ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models
Title（参考訳）: prosparse: 大規模言語モデルにおける内在的アクティベーションスパーシティの導入と拡張
Authors: Chenyang Song, Xu Han, Zhengyan Zhang, Shengding Hu, Xiyu Shi, Kuai Li, Chen Chen, Zhiyuan Liu, Guangli Li, Tao Yang, Maosong Sun
Abstract要約: 活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能を採用している。本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース (ProSparse) と呼ばれる効果的なスペーシフィケーション手法を提案する。
参考スコア（独自算出の注目度）: 76.81756526165533
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Activation sparsity refers to the existence of considerable weakly-contributed elements among activation outputs. As a prevalent property of the models using the ReLU activation function, it has been proven a promising paradigm to boost model inference efficiency. Nevertheless, most large language models (LLMs) adopt activation functions without intrinsic activation sparsity (e.g., GELU and Swish). Some recent efforts have explored introducing ReLU or its variants as the substitutive activation function to help LLMs achieve activation sparsity and inference acceleration, but few can simultaneously obtain high sparsity and comparable model performance. This paper introduces an effective sparsification method named "ProSparse" to push LLMs for higher activation sparsity without decreasing model performance. Specifically, after substituting the activation function of LLMs with ReLU, ProSparse adopts progressive sparsity regularization with a factor smoothly increasing along sine curves in multiple stages. This can enhance activation sparsity and alleviate performance degradation by avoiding radical shifts in activation distribution. With ProSparse, we obtain high sparsity of 89.32% and 88.80% for LLaMA2-7B and LLaMA2-13B, respectively, achieving comparable performance to their original Swish-activated versions. Our inference acceleration experiments further demonstrate the practical acceleration brought by higher activation sparsity.
Abstract（参考訳）: アクティベーションスパーシティは、アクティベーションアウトプットの間にかなりの弱結合要素が存在することを意味する。 ReLUアクティベーション関数を用いたモデルの一般的な特性として、モデル推論効率を高めるための有望なパラダイムであることが証明されている。それにもかかわらず、ほとんどの大きな言語モデル(LLM)は、固有のアクティベーション間隔のないアクティベーション機能(GELUやSwishなど)を採用している。最近の研究では、LLMが活性化空間と推論加速度を達成するのに役立つ代替活性化関数としてReLUやその変種を導入することを検討しているが、高い間隔と同等のモデル性能を同時に得られるものはほとんどない。本稿では, モデル性能を低下させることなく, LLMを高機能化するために, プロスパース方式を提案する。具体的には、LLMの活性化関数をReLUで置換した後、ProSparseは複数の段階において正弦曲線に沿って滑らかに増加する因子で進行性スパーシティ正則化を採用する。これにより、アクティベーション分布の急変を避けることにより、アクティベーションスパーシティを高め、パフォーマンス低下を軽減することができる。 ProSparse では LLaMA2-7B と LLaMA2-13B に対して 89.32% と 88.80% の高間隔が得られる。さらに, 高い活性化スパース性によってもたらされる実用的加速を推算加速度実験により実証した。

関連論文リスト

La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation [17.75193235312511]
活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存するか、制限に直面します。本稿では,LLM効率向上を目的とした新しい活性化スペーシフィケーション手法であるLaRoSAについて述べる。
論文参考訳（メタデータ） (2025-07-02T02:36:03Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [62.09617609556697]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。 PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文参考訳（メタデータ） (2024-11-04T17:59:04Z)
Not All Diffusion Model Activations Have Been Evaluated as Discriminative Features [115.33889811527533]
拡散モデルは当初、画像生成のために設計されている。近年の研究では、バックボーンの内部シグナルはアクティベーションと呼ばれ、様々な識別タスクの高密度な特徴として機能することが示されている。
論文参考訳（メタデータ） (2024-10-04T16:05:14Z)
CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文参考訳（メタデータ） (2024-09-02T16:41:44Z)
Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。 Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文参考訳（メタデータ） (2024-07-15T17:59:29Z)
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。 ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-06-24T13:41:08Z)
Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文参考訳（メタデータ） (2024-06-10T01:21:59Z)
Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文参考訳（メタデータ） (2024-05-15T11:42:42Z)
Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-02-09T01:18:16Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。