論文の概要: State Rank Dynamics in Linear Attention LLMs
- arxiv url: http://arxiv.org/abs/2602.02195v1
- Date: Mon, 02 Feb 2026 15:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.237167
- Title: State Rank Dynamics in Linear Attention LLMs
- Title(参考訳): リニアアテンションLDMにおける状態ランクダイナミクス
- Authors: Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin, Tongrui Su, Yan Liu, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He,
- Abstract要約: 州の階級階層化は、線形アテンションヘッド間で異なるスペクトル分岐によって特徴づけられる。
低ランクの頭部はモデル推論に欠かせないが、高ランクの頭部は顕著な冗長性を示す。
我々は,KVキャッシュのオーバーヘッドを38.9%削減し,モデル精度を大きく維持するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
- 参考スコア(独自算出の注目度): 37.607046806053035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear Attention Large Language Models (LLMs) offer a compelling recurrent formulation that compresses context into a fixed-size state matrix, enabling constant-time inference. However, the internal dynamics of this compressed state remain largely opaque. In this work, we present a comprehensive study on the runtime state dynamics of state-of-the-art Linear Attention models. We uncover a fundamental phenomenon termed State Rank Stratification, characterized by a distinct spectral bifurcation among linear attention heads: while one group maintains an effective rank oscillating near zero, the other exhibits rapid growth that converges to an upper bound. Extensive experiments across diverse inference contexts reveal that these dynamics remain strikingly consistent, indicating that the identity of a head,whether low-rank or high-rank,is an intrinsic structural property acquired during pre-training, rather than a transient state dependent on the input data. Furthermore, our diagnostic probes reveal a surprising functional divergence: low-rank heads are indispensable for model reasoning, whereas high-rank heads exhibit significant redundancy. Leveraging this insight, we propose Joint Rank-Norm Pruning, a zero-shot strategy that achieves a 38.9\% reduction in KV-cache overhead while largely maintaining model accuracy.
- Abstract(参考訳): 線形注意大言語モデル(LLM)は、コンテキストを固定サイズの状態行列に圧縮し、定数時間推論を可能にする、説得力のあるリカレントな定式化を提供する。
しかし、この圧縮状態の内部力学はほとんど不透明である。
本研究では,現状の線形注意モデルにおける実行時状態のダイナミクスについて包括的に研究する。
一方の群はゼロ付近で発振する有効ランクを維持し,他方の群は上界に収束する急激な成長を示す。
多様な推論コンテキストにわたる広範囲な実験により、これらのダイナミクスは著しく一貫したままであり、低ランクでも高ランクでも、入力データに依存する過渡状態ではなく、事前学習時に得られる固有の構造的特性であることを示す。
さらに,低位頭部はモデル推論に欠かせないが,高位頭部は有意な冗長性を示す。
この知見を生かして、モデル精度を大きく維持しつつ、KVキャッシュオーバーヘッドを38.9%削減するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [29.612011138019255]
拡散モデルにおける一様表現ダイナミクスの出現について検討する。
この一様性は、ノイズスケールをまたいだデノイング強度とクラス信頼の相互作用から生じる。
分類タスクでは、単調力学の存在は拡散モデルの一般化を確実に反映する。
論文 参考訳(メタデータ) (2025-02-09T01:58:28Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks [3.566568169425391]
深さが大きくなると、ノード表現はアグリゲーション関数に依存するが特徴変換には依存しない低次元部分空間に支配されることが示される。
すべてのアグリゲーション関数について、ノード表現のランクは崩壊し、特定のアグリゲーション関数に対して過度に滑らかになる。
論文 参考訳(メタデータ) (2023-08-31T15:22:31Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。