論文の概要: Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
- arxiv url: http://arxiv.org/abs/2510.06477v1
- Date: Tue, 07 Oct 2025 21:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.208617
- Title: Attention Sinks and Compression Valleys in LLMs are Two Sides of the Same Coin
- Title(参考訳): LLMにおける注意シンクと圧縮バレーは、同じコインの2つの側面である
- Authors: Enrique Queipo-de-Llano, Álvaro Arroyo, Federico Barbero, Xiaowen Dong, Michael Bronstein, Yann LeCun, Ravid Shwartz-Ziv,
- Abstract要約: 本研究は,残水流における大規模活性化の形成にともなって,注目流と圧縮谷との間に驚くべき関連性を示すものである。
本研究では,LLMが大規模アクティベーションによる注意・表現圧縮を制御し,その計算を深く整理する方法を説明するために,情報フローの混合圧縮・微細化理論を提案する。
- 参考スコア(独自算出の注目度): 41.97400057649291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention sinks and compression valleys have attracted significant attention as two puzzling phenomena in large language models, but have been studied in isolation. In this work, we present a surprising connection between attention sinks and compression valleys, tracing both to the formation of massive activations in the residual stream. We prove theoretically that massive activations necessarily produce representational compression and establish bounds on the resulting entropy reduction. Through experiments across several models (410M-120B parameters), we confirm that when the beginning-of-sequence token develops extreme activation norms in the middle layers, both compression valleys and attention sinks emerge simultaneously. Targeted ablation studies validate our theoretical predictions. This unified view motivates us to propose the Mix-Compress-Refine theory of information flow, as an attempt to explain how LLMs organize their computation in depth by controlling attention and representational compression via massive activations. Specifically, we posit that Transformer-based LLMs process tokens in three distinct phases: (1) broad mixing in the early layers, (2) compressed computation with limited mixing in the middle layers, and (3) selective refinement in the late layers. Our framework helps explain why embedding tasks perform best at intermediate layers, whereas generation tasks benefit from full-depth processing, clarifying differences in task-dependent representations.
- Abstract(参考訳): 注意流しと圧縮谷は、大きな言語モデルで2つのファズリング現象として注目されているが、独立して研究されている。
本研究は,残水流における大規模活性化の形成にともなって,注目流と圧縮谷との間に驚くべき関連性を示すものである。
大規模な活性化が必ずしも表現圧縮を発生させ、結果として生じるエントロピー還元の限界を確立することを理論的に証明する。
いくつかのモデル(410M-120Bパラメータ)にわたる実験により、中間層においてシーケンス開始トークンが極端なアクティベーションノルムを発達させると、圧縮谷とアテンションシンクの両方が同時に出現することを確認した。
ターゲットアブレーション研究は、我々の理論的予測を検証する。
この統合された視点は、LLMが大規模なアクティベーションを介して注意と表現圧縮を制御し、どのように計算を深く整理するかを説明するために、情報フローのミックス・圧縮・リファイン理論を提案する動機となっている。
具体的には,(1)初期層での広混合,(2)中層での限られた混合を伴う圧縮計算,(3)後期層での選択的精錬の3つの相でトランスフォーマーベースのLCMプロセストークンを仮定する。
組込みタスクが中間層で最適である理由を説明するのに役立ち、一方、生成タスクはタスク依存表現の違いを明確にし、完全深度処理の恩恵を受ける。
関連論文リスト
- Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility [90.894232610821]
我々は、ランク構造のレンズを通してトランスフォーマーを解析する。
時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。
関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
論文 参考訳(メタデータ) (2025-10-02T23:56:17Z) - EARN: Efficient Inference Acceleration for LLM-based Generative Recommendation by Register Tokens [47.60523011706102]
大規模言語モデルベースの生成レコメンデーション(LLMRec)は目覚ましい成功を収めているが、高い推論遅延に悩まされている。
入力シーケンス境界に配置されたレジスタトークンに情報を圧縮するために,初期層を利用した効率的な推論フレームワークEARNを提案する。
論文 参考訳(メタデータ) (2025-07-01T12:42:06Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Exploring Activation Patterns of Parameters in Language Models [27.454051736471374]
モデルパラメータのアクティベーションレベルを評価するための勾配に基づく計量法を提案する。
浅い層のパラメータは密に活性化されるため、パラメータの大部分は出力に大きな影響を与える。
深層層では、活性化パラメータの分布の類似性は経験的データ関連性と正に相関する。
論文 参考訳(メタデータ) (2024-05-28T03:49:54Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。