論文の概要: La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation
- arxiv url: http://arxiv.org/abs/2507.01299v1
- Date: Wed, 02 Jul 2025 02:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.986057
- Title: La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation
- Title(参考訳): La RoSA: 層状回転スパース活性化によるLCM効率の向上
- Authors: Kai Liu, Bowen Xu, Shaoyu Wu, Xin Chen, Hao Zhou, Yongliang Tao, Lulu Hu,
- Abstract要約: 活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。
既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存するか、制限に直面します。
本稿では,LLM効率向上を目的とした新しい活性化スペーシフィケーション手法であるLaRoSAについて述べる。
- 参考スコア(独自算出の注目度): 17.75193235312511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation sparsity can reduce the computational overhead and memory transfers during the forward pass of Large Language Model (LLM) inference. Existing methods face limitations, either demanding time-consuming recovery training that hinders real-world adoption, or relying on empirical magnitude-based pruning, which causes fluctuating sparsity and unstable inference speed-up. This paper introduces LaRoSA (Layerwise Rotated Sparse Activation), a novel method for activation sparsification designed to improve LLM efficiency without requiring additional training or magnitude-based pruning. We leverage layerwise orthogonal rotations to transform input activations into rotated forms that are more suitable for sparsification. By employing a Top-K selection approach within the rotated activations, we achieve consistent model-level sparsity and reliable wall-clock time speed-up. LaRoSA is effective across various sizes and types of LLMs, demonstrating minimal performance degradation and robust inference acceleration. Specifically, for LLaMA2-7B at 40% sparsity, LaRoSA achieves a mere 0.17 perplexity gap with a consistent 1.30x wall-clock time speed-up, and reduces the accuracy gap in zero-shot tasks compared to the dense model to just 0.54%, while surpassing TEAL by 1.77% and CATS by 17.14%.
- Abstract(参考訳): 活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。
既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存しているか、変動するスパーシリティと不安定な推論のスピードアップを引き起こす。
本稿では,LLM効率向上を目的とした活性化スカラー化手法であるLaRoSA(Layerwise Rotated Sparse Activation)を紹介する。
層状直交回転を利用して入力活性化をスペース化に適した回転形式に変換する。
回転活性化におけるTop-K選択手法を用いることで、一貫したモデルレベルの間隔と信頼性のあるウォールクロック時間高速化を実現する。
LaRoSAはLLMのさまざまなサイズやタイプで有効であり、最小性能の劣化と堅牢な推論アクセラレーションを示す。
具体的には、LLaMA2-7Bの40%の間隔で、LaRoSAは1.30倍のウォールクロックタイムアップでわずか0.17パープレキシティギャップを達成し、高密度モデルと比較してゼロショットタスクの精度ギャップを0.54%削減し、TEALを1.77%、CATSを17.14%上回る。
関連論文リスト
- ACE: Exploring Activation Cosine Similarity and Variance for Accurate and Calibration-Efficient LLM Pruning [15.933542902352604]
本研究では,高速刈り出し性能と高速刈り出し速度を同時に達成する効率的かつ効率的な刈り出し法を提案する。
実験結果から, 本手法は, パープレキシティの最大18%, プルーニング時間の最大63%低減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-28T05:25:16Z) - R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - Training-Free Activation Sparsity in Large Language Models [32.37595108771431]
アクティベーションのスパーシリティは、大きな言語モデルで実用的な推論スピードアップを可能にする。
既存の手法は普及を妨げる限界に直面している。
本稿では,モデル全体の隠れ状態に対して,等級に基づくアクティベーション間隔を適用したトレーニング不要なTEALについて述べる。
論文 参考訳(メタデータ) (2024-08-26T23:30:15Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - Turbo Sparse: Achieving LLM SOTA Performance with Minimal Activated Parameters [20.093224415258174]
活性化間隔は活性化関数によって決定されるが、一般的に使用されるSwiGLUやGeGLUのような活性化間隔は限られている。
高品質なトレーニングデータ混合比とともに, LLMの活性化間隔を改善するために設計された新しいdReLU関数を提案する。
携帯電話では、TurboSparse-Mixtral-47Bが毎秒11トークンの推論速度を実現しています。
論文 参考訳(メタデータ) (2024-06-10T01:21:59Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。