論文の概要: State Rank Dynamics in Linear Attention LLMs
- arxiv url: http://arxiv.org/abs/2602.02195v1
- Date: Mon, 02 Feb 2026 15:00:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.237167
- Title: State Rank Dynamics in Linear Attention LLMs
- Title(参考訳): リニアアテンションLDMにおける状態ランクダイナミクス
- Authors: Ao Sun, Hongtao Zhang, Heng Zhou, Yixuan Ma, Yiran Qin, Tongrui Su, Yan Liu, Zhanyu Ma, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He,
- Abstract要約: 州の階級階層化は、線形アテンションヘッド間で異なるスペクトル分岐によって特徴づけられる。
低ランクの頭部はモデル推論に欠かせないが、高ランクの頭部は顕著な冗長性を示す。
我々は,KVキャッシュのオーバーヘッドを38.9%削減し,モデル精度を大きく維持するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
- 参考スコア(独自算出の注目度): 37.607046806053035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear Attention Large Language Models (LLMs) offer a compelling recurrent formulation that compresses context into a fixed-size state matrix, enabling constant-time inference. However, the internal dynamics of this compressed state remain largely opaque. In this work, we present a comprehensive study on the runtime state dynamics of state-of-the-art Linear Attention models. We uncover a fundamental phenomenon termed State Rank Stratification, characterized by a distinct spectral bifurcation among linear attention heads: while one group maintains an effective rank oscillating near zero, the other exhibits rapid growth that converges to an upper bound. Extensive experiments across diverse inference contexts reveal that these dynamics remain strikingly consistent, indicating that the identity of a head,whether low-rank or high-rank,is an intrinsic structural property acquired during pre-training, rather than a transient state dependent on the input data. Furthermore, our diagnostic probes reveal a surprising functional divergence: low-rank heads are indispensable for model reasoning, whereas high-rank heads exhibit significant redundancy. Leveraging this insight, we propose Joint Rank-Norm Pruning, a zero-shot strategy that achieves a 38.9\% reduction in KV-cache overhead while largely maintaining model accuracy.
- Abstract(参考訳): 線形注意大言語モデル(LLM)は、コンテキストを固定サイズの状態行列に圧縮し、定数時間推論を可能にする、説得力のあるリカレントな定式化を提供する。
しかし、この圧縮状態の内部力学はほとんど不透明である。
本研究では,現状の線形注意モデルにおける実行時状態のダイナミクスについて包括的に研究する。
一方の群はゼロ付近で発振する有効ランクを維持し,他方の群は上界に収束する急激な成長を示す。
多様な推論コンテキストにわたる広範囲な実験により、これらのダイナミクスは著しく一貫したままであり、低ランクでも高ランクでも、入力データに依存する過渡状態ではなく、事前学習時に得られる固有の構造的特性であることを示す。
さらに,低位頭部はモデル推論に欠かせないが,高位頭部は有意な冗長性を示す。
この知見を生かして、モデル精度を大きく維持しつつ、KVキャッシュオーバーヘッドを38.9%削減するゼロショット戦略であるJoint Rank-Norm Pruningを提案する。
関連論文リスト
- Attention in Constant Time: Vashista Sparse Attention for Long-Context Decoding with Exponential Guarantees [0.0]
大規模な言語モデルは、長いコンテキストに対する推論コストの大部分を注意に費やします。
我々はこの現象をキーベクトルの凸殻への射影として注意をモデル化することによって定式化する。
本稿では,クエリ毎に小さな候補セットを保持するドロップイン機構であるVasista Sparse Attentionを紹介する。
論文 参考訳(メタデータ) (2026-02-14T14:29:10Z) - STORE: Semantic Tokenization, Orthogonal Rotation and Efficient Attention for Scaling Up Ranking Models [11.965535230928372]
Storeは,3つのコアイノベーションに基づいて構築された,統一的でスケーラブルなトークンベースのランキングフレームワークである。
我々のフレームワークは、予測精度(オンラインCTR 2.71%、AUC 1.195%)とトレーニング効率(1.84スループット)を継続的に改善します。
論文 参考訳(メタデータ) (2025-11-24T06:20:02Z) - RainDiff: End-to-end Precipitation Nowcasting Via Token-wise Attention Diffusion [64.49056527678606]
本稿では,U-Net拡散モデルだけでなく,レーダ時間エンコーダにも統合されたトークンワイドアテンションを提案する。
従来の手法とは異なり,本手法は,画素空間拡散の典型的な高資源コストを発生させることなく,アーキテクチャに注意を集中させる。
実験と評価により,提案手法は複雑な降水予測シナリオにおいて,最先端の手法,ロバストネスの局所的忠実度,一般化,優位性を著しく上回ることを示した。
論文 参考訳(メタデータ) (2025-10-16T17:59:13Z) - Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Neural Collapse in Cumulative Link Models for Ordinal Regression: An Analysis with Unconstrained Feature Model [5.339955242953934]
我々は、通常神経崩壊(ONC)と呼ばれる現象が実際に出現し、以下の3つの特性によって特徴付けられることを示した。
特に、ゼロ正則化極限では、潜伏変数としきい値の間に非常に局所的で単純な幾何学的関係が現れる。
論文 参考訳(メタデータ) (2025-06-06T06:57:02Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Understanding Representation Dynamics of Diffusion Models via Low-Dimensional Modeling [29.612011138019255]
拡散モデルにおける一様表現ダイナミクスの出現について検討する。
この一様性は、ノイズスケールをまたいだデノイング強度とクラス信頼の相互作用から生じる。
分類タスクでは、単調力学の存在は拡散モデルの一般化を確実に反映する。
論文 参考訳(メタデータ) (2025-02-09T01:58:28Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - A phase transition between positional and semantic learning in a solvable model of dot-product attention [30.96921029675713]
学習可能な,低次元の問合せとキーデータを備えた非次元自己注意層として,高次モデルドット積注意法について検討した。
位置注意機構(それぞれの位置に基づくトークンを含む)と意味注意機構(それぞれの意味に基づいて互いに結びついているトークンを含む)と、サンプルの複雑さが増大する前者から後者への遷移が示される。
論文 参考訳(メタデータ) (2024-02-06T11:13:54Z) - Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks [3.566568169425391]
深さが大きくなると、ノード表現はアグリゲーション関数に依存するが特徴変換には依存しない低次元部分空間に支配されることが示される。
すべてのアグリゲーション関数について、ノード表現のランクは崩壊し、特定のアグリゲーション関数に対して過度に滑らかになる。
論文 参考訳(メタデータ) (2023-08-31T15:22:31Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。