論文の概要: A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.08504v2
- Date: Tue, 12 May 2026 18:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.809875
- Title: A Single Layer to Explain Them All:Understanding Massive Activations in Large Language Models
- Title(参考訳): すべてを説明する単一層:大規模言語モデルにおける大規模活動
- Authors: Zeru Shi, Zhenting Wang, Fan Yang, Qifan Wang, Ruixiang Tang,
- Abstract要約: 大規模言語モデル(LLM)における大規模アクティベーションの起源について検討する。
モデルファミリ間で一貫して観察されるtextbfMassive Emergence Layer (ME Layer) と呼ばれる特定の層を同定する。
RMSNormとFFNパラメータの両方がME層内で大きな活性化の出現に共同して寄与していることを示す。
本研究では,この制限により,大規模アクティベーショントークンの剛性を簡易かつ効果的に低減する手法を提案する。
- 参考スコア(独自算出の注目度): 56.03096341469333
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the origins of massive activations in large language models (LLMs) and identify a specific layer named the \textbf{Massive Emergence Layer (ME Layer)}, that is consistently observed across model families, where massive activations first emerge and subsequently propagate to deeper layers through residual connections. We show that, within the ME Layer both the RMSNorm and the FFN parameters jointly contribute to the emergence of massive activations. Once formed, the massive activation token representation remains largely invariant across layers, reducing the diversity of hidden representations passed to the attention module. Motivated by this limitation, we propose a simple and effective method to reduce the rigidity of the massive activation token. Our approach consistently improves LLM performance across multiple tasks, including instruction following and math reasoning, in both training free and fine tuning settings. Moreover, we show that our method mitigates attention sinks by selectively weakening their influence, elucidating their origin at the hidden state level and shedding new light on principled mitigation strategies.
- Abstract(参考訳): 大規模言語モデル(LLM)における大規模アクティベーションの起源を考察し,モデルファミリ間で連続的に観測される,‘textbf{Massive Emergence Layer(ME Layer)’と呼ばれる特定の層を同定する。
RMSNormとFFNパラメータの両方がME層内で大きな活性化の出現に共同して寄与していることを示す。
一度形成されると、巨大なアクティベーショントークン表現は層間でほとんど不変であり、アテンションモジュールに渡される隠された表現の多様性が減少する。
本研究では,この制限により,大規模アクティベーショントークンの剛性を簡易かつ効果的に低減する手法を提案する。
提案手法は、学習用および微調整用の両方において、命令追従や算数推論を含む複数のタスクにわたるLLM性能を継続的に改善する。
さらに,本手法は,その影響を選択的に弱め,その起源を隠蔽状態レベルで解明し,原理的緩和戦略に新たな光を当てることによって,注目シンクを緩和することを示す。
関連論文リスト
- FreeAct: Freeing Activations for LLM Quantization [89.97086263978058]
量子化は、大規模言語モデルの重要なメモリと計算オーバーヘッドを軽減するために重要である。
FreeActは静的な1対1の制約を緩和し、動的アクティベーションの格差を緩和する新しい量子化フレームワークである。
dLLMとMLLMでの実験では、FreeActはベースラインを大幅に上回り、パフォーマンスは最大5.3%向上した。
論文 参考訳(メタデータ) (2026-03-02T12:02:17Z) - Meaningless Tokens, Meaningful Gains: How Activation Shifts Enhance LLM Reasoning [53.35553353785948]
問合せプロンプトの前に無意味なトークンの長いシーケンスを挿入することで、LCM性能の推論を継続的に強化できるというファズリング観測により、本研究は、この現象を駆動する基盤となるメカニズムを解析する。
その結果,LLM層における活性化の再分配により,大きな活性化が増大するにつれて,ほぼゼロに近い活性化頻度が低下することが判明した。
本稿では,入力シーケンスを変更することなく,アクティベーションを直接修正する軽量な推論時間手法を提案する。
論文 参考訳(メタデータ) (2025-10-01T15:39:38Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Large Language Model Compression via the Nested Activation-Aware Decomposition [12.400791399764213]
我々は,大規模言語モデル(LLM)の低ランク分解に着目した,新しい訓練後圧縮パラダイムを導入する。
低ランク分解の精度を高めるために,LLMのためのネスト型アクティベーション・アウェア・フレームワーク(NSVD)を提案する。
論文 参考訳(メタデータ) (2025-03-21T12:39:16Z) - CHESS: Optimizing LLM Inference via Channel-Wise Thresholding and Selective Sparsification [7.8430836312711465]
本稿では,アクティベーションスペーシフィケーション問題を修正し,アクティベーションスペーシビリティとモデル性能の関係を明確に把握する。
本稿では,Channel-wise thrEsholding と Selective Sparsification による一般的な活性化スカラー化手法であるCHESSを提案する。
実験の結果,提案したCHESSは,既存の手法よりも少ないパラメータを活性化しながら,8つの下流タスクよりも低い性能劣化を実現することがわかった。
論文 参考訳(メタデータ) (2024-09-02T16:41:44Z) - Streamlining Redundant Layers to Compress Large Language Models [21.27944103424621]
本稿では,LLM-Streamlineについて紹介する。
異なる層が隠れた状態に様々な影響を与えるという観察に基づいており、重要でない層を識別することができる。
実験により, LLM-Streamlineは, 性能および訓練効率の両面において, 先行および同時のプルーニング法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-28T04:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。