論文の概要: Universal Properties of Activation Sparsity in Modern Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00454v1
- Date: Sat, 30 Aug 2025 10:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.239553
- Title: Universal Properties of Activation Sparsity in Modern Large Language Models
- Title(参考訳): 現代大言語モデルにおける活性化空間の普遍的性質
- Authors: Filip Szatkowski, Patryk Będkowski, Alessio Devoto, Jan Dubiński, Pasquale Minervini, Mikołaj Piórczyński, Simone Scardapane, Bartosz Wójcik,
- Abstract要約: 本稿では, 近代LLMのFFN層におけるスポーサリティの堅牢性を評価するための枠組みと, その現象の系統的研究について述べる。
本研究は, LLMにおけるアクティベーション空間の普遍的パターンを明らかにし, この現象の知見を提供し, モデル設計と加速に活用するための実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 20.84931970096774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Input-dependent activation sparsity is a notable property of deep learning models, which has been extensively studied in networks with ReLU activations and is associated with efficiency, robustness, and interpretability. However, the approaches developed for ReLU-based models depend on exact zero activations and do not transfer directly to modern large language models~(LLMs), which have abandoned ReLU in favor of other activation functions. As a result, current work on activation sparsity in LLMs is fragmented, model-specific, and lacks consensus on which components to target. We propose a general framework to assess sparsity robustness and present a systematic study of the phenomenon in the FFN layers of modern LLMs, including diffusion LLMs. Our findings reveal universal patterns of activation sparsity in LLMs, provide insights into this phenomenon, and offer practical guidelines for exploiting it in model design and acceleration.
- Abstract(参考訳): 入力依存型アクティベーション空間は、ReLUアクティベーションを持つネットワークで広く研究され、効率、堅牢性、解釈可能性に関連するディープラーニングモデルの顕著な特性である。
しかし、ReLUベースのモデルのために開発されたアプローチは、正確なゼロアクティベーションに依存し、ReLUを放棄した現代の大規模言語モデル~(LLM)に直接移行しない。
結果として、LLMにおけるアクティベーションの空間性に関する現在の研究は断片化され、モデル固有のものであり、どのコンポーネントを対象とするかのコンセンサスが欠如している。
本稿では, 拡散LDMを含む近代LLMのFFN層におけるスポーサリティの堅牢性を評価するための一般的な枠組みを提案する。
本研究は, LLMにおけるアクティベーション空間の普遍的パターンを明らかにし, この現象の知見を提供し, モデル設計と加速に活用するための実践的ガイドラインを提供する。
関連論文リスト
- Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs [20.404448253054014]
MYU(Massive Over-activation Yielded Uplifts)は、大規模言語モデル固有の特性である。
Massive Over-activation Yielded Uplifts (MOYU) は、これらのモデルにおける推論を加速するために設計された、巧妙だが未探索の戦略である。
論文 参考訳(メタデータ) (2024-06-18T12:57:33Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。