論文の概要: Universal Properties of Activation Sparsity in Modern Large Language Models
- arxiv url: http://arxiv.org/abs/2509.00454v1
- Date: Sat, 30 Aug 2025 10:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.239553
- Title: Universal Properties of Activation Sparsity in Modern Large Language Models
- Title(参考訳): 現代大言語モデルにおける活性化空間の普遍的性質
- Authors: Filip Szatkowski, Patryk Będkowski, Alessio Devoto, Jan Dubiński, Pasquale Minervini, Mikołaj Piórczyński, Simone Scardapane, Bartosz Wójcik,
- Abstract要約: 本稿では, 近代LLMのFFN層におけるスポーサリティの堅牢性を評価するための枠組みと, その現象の系統的研究について述べる。
本研究は, LLMにおけるアクティベーション空間の普遍的パターンを明らかにし, この現象の知見を提供し, モデル設計と加速に活用するための実践的ガイドラインを提供する。
- 参考スコア(独自算出の注目度): 20.84931970096774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Input-dependent activation sparsity is a notable property of deep learning models, which has been extensively studied in networks with ReLU activations and is associated with efficiency, robustness, and interpretability. However, the approaches developed for ReLU-based models depend on exact zero activations and do not transfer directly to modern large language models~(LLMs), which have abandoned ReLU in favor of other activation functions. As a result, current work on activation sparsity in LLMs is fragmented, model-specific, and lacks consensus on which components to target. We propose a general framework to assess sparsity robustness and present a systematic study of the phenomenon in the FFN layers of modern LLMs, including diffusion LLMs. Our findings reveal universal patterns of activation sparsity in LLMs, provide insights into this phenomenon, and offer practical guidelines for exploiting it in model design and acceleration.
- Abstract(参考訳): 入力依存型アクティベーション空間は、ReLUアクティベーションを持つネットワークで広く研究され、効率、堅牢性、解釈可能性に関連するディープラーニングモデルの顕著な特性である。
しかし、ReLUベースのモデルのために開発されたアプローチは、正確なゼロアクティベーションに依存し、ReLUを放棄した現代の大規模言語モデル~(LLM)に直接移行しない。
結果として、LLMにおけるアクティベーションの空間性に関する現在の研究は断片化され、モデル固有のものであり、どのコンポーネントを対象とするかのコンセンサスが欠如している。
本稿では, 拡散LDMを含む近代LLMのFFN層におけるスポーサリティの堅牢性を評価するための一般的な枠組みを提案する。
本研究は, LLMにおけるアクティベーション空間の普遍的パターンを明らかにし, この現象の知見を提供し, モデル設計と加速に活用するための実践的ガイドラインを提供する。
関連論文リスト
- Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T15:39:38Z) - LLM Unlearning via Neural Activation Redirection [24.157334866277534]
線形表現仮説に基づく新しいアンラーニング手法であるLUNARを提案する。
LUNARは最先端の未学習性能と制御性に優れることを示す。
論文 参考訳(メタデータ) (2025-02-11T03:23:22Z) - Sparsing Law: Towards Large Language Models with Greater Activation Sparsity [64.15238674475619]
活性化空間性は、除去できる活性化出力の中に、かなり弱い分散要素が存在することを表す。
PPL-$p%$ sparsity, a accurate and performance-aware activation sparsity metric。
我々は、SiLUよりも活性化関数としてReLUが効率的であることを示し、より多くのトレーニングデータを利用してアクティベーション空間を改善することができることを示した。
論文 参考訳(メタデータ) (2024-11-04T17:59:04Z) - MOYU: A Theoretical Study on Massive Over-activation Yielded Uplifts in LLMs [20.404448253054014]
MYU(Massive Over-activation Yielded Uplifts)は、大規模言語モデル固有の特性である。
Massive Over-activation Yielded Uplifts (MOYU) は、これらのモデルにおける推論を加速するために設計された、巧妙だが未探索の戦略である。
論文 参考訳(メタデータ) (2024-06-18T12:57:33Z) - Dynamic Activation Pitfalls in LLaMA Models: An Empirical Study [20.404448253054014]
言語モデルのLLaMAファミリーにおける動的アクティベーション機構の有効性について検討した。
我々の経験的発見は、現在の動的アクティベーションスキームに固有のいくつかの落とし穴を発見した。
論文 参考訳(メタデータ) (2024-05-15T11:42:42Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models [74.59731375779934]
活性化スパーシリティ(Activation sparsity)とは、活性化出力の間に弱い分散要素が存在することを指す。
本稿では,PLMを高活性化空間にプッシュするために,"ProSparse" という,シンプルで効果的なスペース化手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T03:58:49Z) - ReLU$^2$ Wins: Discovering Efficient Activation Functions for Sparse
LLMs [91.31204876440765]
本稿では、ニューロンの出力の等級と調整された等級しきい値によってニューロンの活性化を定義する一般的な方法を提案する。
スパース計算における最も効率的なアクティベーション関数を見つけるために,本手法を提案する。
我々は、ReLU、SwiGLU、ReGLU、ReLU$2$といった異なるアクティベーション機能を利用したLCMの徹底的な実験を行う。
論文 参考訳(メタデータ) (2024-02-06T08:45:51Z) - ReLU Strikes Back: Exploiting Activation Sparsity in Large Language
Models [35.77063662562747]
数十億のパラメータを持つ大規模言語モデル(LLM)は、AIアプリケーションを大幅に変革した。
推論中に要求される計算は、リソースに制約のあるデバイスに展開する上で大きな課題を提起している。
本稿では,ReLUアクティベーション関数の使用がコンバージェンスや性能に悪影響を及ぼす一方で,計算量や重量移動を著しく削減できることを実証する。
論文 参考訳(メタデータ) (2023-10-06T20:01:33Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。