Fugu-MT 論文翻訳(概要): Activation Sparsity Opportunities for Compressing General Large Language Models

論文の概要: Activation Sparsity Opportunities for Compressing General Large Language Models

arxiv url: http://arxiv.org/abs/2412.12178v2
Date: Fri, 31 Jan 2025 19:09:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.40457
Title: Activation Sparsity Opportunities for Compressing General Large Language Models
Title（参考訳）: 一般大言語モデル圧縮のためのアクティベーション空間オプション
Authors: Nobel Dhar, Bobin Deng, Md Romyull Islam, Kazi Fahim Ahmad Nasif, Liang Zhao, Kun Suo,
Abstract要約: この研究は、最先端AIモデルにおけるアクティベーション空間の強制とパープレキシティ(精度)のトレードオフを体系的に調査する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。
参考スコア（独自算出の注目度）: 4.5624217435826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deploying local AI models, such as Large Language Models (LLMs), to edge devices can substantially enhance devices' independent capabilities, alleviate the server's burden, and lower the response time. Owing to these tremendous potentials, many big tech companies have released several lightweight Small Language Models (SLMs) to bridge this gap. However, we still have huge motivations to deploy more powerful (LLMs) AI models on edge devices and enhance their smartness level. Unlike the conventional approaches for AI model compression, we investigate activation sparsity. The activation sparsity method is orthogonal and combinable with existing techniques to maximize the compression rate while maintaining great accuracy. LLMs' Feed-Forward Network (FFN) components, which typically comprise a large proportion of parameters (around 2/3), ensure that our FFN optimizations would have a better chance of achieving effective compression. Moreover, our findings are beneficial to general LLMs and are not restricted to ReLU-based models. This work systematically investigates the tradeoff between enforcing activation sparsity and perplexity (accuracy) on state-of-the-art LLMs. Our empirical analysis demonstrates that we can obtain around 50% of main memory and computing reductions for critical FFN components with negligible accuracy degradation. This extra 50% sparsity does not naturally exist in the current LLMs, which require tuning LLMs' activation outputs by injecting zero-enforcing thresholds. To obtain the benefits of activation sparsity, we provide a guideline for the system architect for LLM prediction and prefetching. The success prediction allows the system to prefetch the necessary weights while omitting the inactive ones and their successors, therefore lowering cache and memory pollution and reducing LLM execution time on resource-constrained edge devices.
Abstract（参考訳）: エッジデバイスにLarge Language Models(LLMs)などのローカルAIモデルをデプロイすることで、デバイスの独立性を大幅に向上し、サーバの負担を軽減すると同時に、応答時間を短縮することができる。こうした大きなポテンシャルのために、多くの大企業がこのギャップを埋めるために、いくつかの軽量のSLM(Small Language Models)をリリースした。しかし、エッジデバイスにより強力な(LLM)AIモデルをデプロイし、そのスマート度を向上するという大きな動機があります。従来のAIモデル圧縮手法とは異なり、アクティベーション空間について検討する。アクティベーション・スパシティ法は, 精度を高く保ちながら圧縮速度を最大化するために, 従来技術と直交・結合可能である。 LLMのFeed-Forward Network (FFN) コンポーネントは、通常、多くのパラメータ(約2/3)で構成されています。さらに,本研究の成果は一般LLMにとって有益であり,ReLUモデルに限らない。本研究は, 最先端LLMにおけるアクティベーション空間とパープレキシティ(精度)のトレードオフを系統的に検討する。実験により,重要なFFN成分に対する主記憶の約50%と計算量の削減を無視可能な精度劣化で達成できることが実証された。この余分な50%の間隔は、ゼロエンフォースしきい値を注入することでLLMの活性化出力を調整する必要がある現在のLLMには自然に存在しない。活性化空間の利点を得るため,LLM予測とプレフェッチのためのシステムアーキテクトのガイドラインを提供する。成功予測により、システムは不活性なものとその後継を省略しながら必要な重みを予知し、キャッシュとメモリ汚染を低減し、リソース制約されたエッジデバイス上でのLCM実行時間を短縮できる。

関連論文リスト

WINA: Weight Informed Neuron Activation for Accelerating Large Language Model Inference [44.538579135121466]
WINA(Weight Informed Neuron Activation)は、新しい、シンプルで、トレーニング不要なスパースアクティベーションフレームワークである。 WINAは,従来の手法よりも厳密な理論的保証を持つ最適近似誤差境界が得られることを示す。また、最先端の手法(例えばTEAL)を同等の間隔で平均性能で2.94%まで上回っている。
論文参考訳（メタデータ） (2025-05-26T02:37:32Z)
R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。 10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-04-28T03:30:32Z)
PLM: Efficient Peripheral Language Models Hardware-Co-Designed for Ubiquitous Computing [48.30406812516552]
我々は、モデルアーキテクチャとエッジシステムの制約を協調的に最適化する共同設計プロセスを通じて開発された、周辺言語モデルであるPLMを紹介する。 PLMはMulti-head Latent Attentionメカニズムを採用し、正方形ReLUアクティベーション機能を採用してスパーシティを促進し、ピークメモリフットプリントを減少させる。評価の結果, PLMは, 公開されているデータに基づいて訓練された既存の小言語モデルよりも優れていた。
論文参考訳（メタデータ） (2025-03-15T15:11:17Z)
Low-Rank Adapters Meet Neural Architecture Search for LLM Compression [1.8434042562191815]
LLM(Large Language Models)の急速な拡張は、微調整と展開に必要な計算資源に関して重大な課題を提起している。低ランクアダプタの最近の進歩は、これらのモデルのパラメータ効率のよい微調整(PEFT)において有効であることを示した。本稿では,低ランク表現をニューラルアーキテクチャサーチ(NAS)技術と相乗化するための革新的なアプローチを包括的に論じる。
論文参考訳（メタデータ） (2025-01-23T02:14:08Z)
Adaptive Pruning for Large Language Models with Structural Importance Awareness [66.2690963378878]
大規模言語モデル(LLM)は言語理解と生成能力を大幅に改善した。 LLMは、高い計算およびストレージリソース要求のため、リソース制約のあるエッジデバイスにデプロイするのは難しい。モデル性能を維持しつつ,計算コストとメモリコストを大幅に削減する構造的適応型プルーニング(SAAP)を提案する。
論文参考訳（メタデータ） (2024-12-19T18:08:04Z)
Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文参考訳（メタデータ） (2024-09-25T21:32:12Z)
ShadowLLM: Predictor-based Contextual Sparsity for Large Language Models [67.97667465509504]
我々は,LLMの挙動を隠蔽し,より親密なパターンを強制できる新しい予測器であるShadowLLMを開発した。 ShadowLLMは最先端のDejaVuフレームワーク上で最大20%のスピードアップを達成する。
論文参考訳（メタデータ） (2024-06-24T13:41:08Z)
Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-02-09T01:18:16Z)
ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文参考訳（メタデータ） (2024-02-06T08:45:51Z)
One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文参考訳（メタデータ） (2023-10-14T05:43:09Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。