論文の概要: La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation
- arxiv url: http://arxiv.org/abs/2507.01299v1
- Date: Wed, 02 Jul 2025 02:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.986057
- Title: La RoSA: Enhancing LLM Efficiency via Layerwise Rotated Sparse Activation
- Title(参考訳): La RoSA: 層状回転スパース活性化によるLCM効率の向上
- Authors: Kai Liu, Bowen Xu, Shaoyu Wu, Xin Chen, Hao Zhou, Yongliang Tao, Lulu Hu,
- Abstract要約: 活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。
既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存するか、制限に直面します。
本稿では,LLM効率向上を目的とした新しい活性化スペーシフィケーション手法であるLaRoSAについて述べる。
- 参考スコア(独自算出の注目度): 17.75193235312511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Activation sparsity can reduce the computational overhead and memory transfers during the forward pass of Large Language Model (LLM) inference. Existing methods face limitations, either demanding time-consuming recovery training that hinders real-world adoption, or relying on empirical magnitude-based pruning, which causes fluctuating sparsity and unstable inference speed-up. This paper introduces LaRoSA (Layerwise Rotated Sparse Activation), a novel method for activation sparsification designed to improve LLM efficiency without requiring additional training or magnitude-based pruning. We leverage layerwise orthogonal rotations to transform input activations into rotated forms that are more suitable for sparsification. By employing a Top-K selection approach within the rotated activations, we achieve consistent model-level sparsity and reliable wall-clock time speed-up. LaRoSA is effective across various sizes and types of LLMs, demonstrating minimal performance degradation and robust inference acceleration. Specifically, for LLaMA2-7B at 40% sparsity, LaRoSA achieves a mere 0.17 perplexity gap with a consistent 1.30x wall-clock time speed-up, and reduces the accuracy gap in zero-shot tasks compared to the dense model to just 0.54%, while surpassing TEAL by 1.77% and CATS by 17.14%.
- Abstract(参考訳): 活性化間隔は、LLM(Large Language Model)推論の前方通過時の計算オーバーヘッドとメモリ転送を減少させる。
既存の方法は、実世界の採用を妨げる時間を要する回復トレーニングを必要とするか、経験的マグニチュードベースのプルーニングに依存しているか、変動するスパーシリティと不安定な推論のスピードアップを引き起こす。
本稿では,LLM効率向上を目的とした活性化スカラー化手法であるLaRoSA(Layerwise Rotated Sparse Activation)を紹介する。
層状直交回転を利用して入力活性化をスペース化に適した回転形式に変換する。
回転活性化におけるTop-K選択手法を用いることで、一貫したモデルレベルの間隔と信頼性のあるウォールクロック時間高速化を実現する。
LaRoSAはLLMのさまざまなサイズやタイプで有効であり、最小性能の劣化と堅牢な推論アクセラレーションを示す。
具体的には、LLaMA2-7Bの40%の間隔で、LaRoSAは1.30倍のウォールクロックタイムアップでわずか0.17パープレキシティギャップを達成し、高密度モデルと比較してゼロショットタスクの精度ギャップを0.54%削減し、TEALを1.77%、CATSを17.14%上回る。
関連論文リスト
- ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。