論文の概要: Stem: Rethinking Causal Information Flow in Sparse Attention
- arxiv url: http://arxiv.org/abs/2603.06274v1
- Date: Fri, 06 Mar 2026 13:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.799368
- Title: Stem: Rethinking Causal Information Flow in Sparse Attention
- Title(参考訳): Stem: スパースアテンションにおける因果情報フローの再考
- Authors: Lin Niu, Xin Luo, Linchuan Xie, Yifu Sun, Guanghua Yu, Jianchen Zhu, S Kevin Zhou,
- Abstract要約: 本稿では,情報フローに整合した新しいプラグアンドプレイスペースモジュールであるStemを提案する。
まず、StemはToken Position-Decay戦略を採用し、各レイヤ内で位置依存のトップkを適用して初期トークンを保持する。
次に、情報豊富なトークンを保存するために、StemはOutput-Aware Metricを使用する。
- 参考スコア(独自算出の注目度): 28.46760179998361
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic computational complexity of self-attention remains a fundamental bottleneck for scaling Large Language Models (LLMs) to long contexts, particularly during the pre-filling phase. In this paper, we rethink the causal attention mechanism from the perspective of information flow. Due to causal constraints, tokens at initial positions participate in the aggregation of every subsequent token. However, existing sparse methods typically apply a uniform top-k selection across all token positions within a layer, ignoring the cumulative dependency of token information inherent in causal architectures. To address this, we propose Stem, a novel, plug-and-play sparsity module aligned with information flow. First, Stem employs the Token Position-Decay strategy, applying position-dependent top-k within each layer to retain initial tokens for recursive dependencies. Second, to preserve information-rich tokens, Stem utilizes the Output-Aware Metric. It prioritizes high-impact tokens based on approximate output magnitude. Extensive evaluations demonstrate that Stem achieves superior accuracy with reduced computation and pre-filling latency.
- Abstract(参考訳): 自己注意の二次的な計算複雑性は、特に準備段階において、Large Language Models (LLM) を長期のコンテキストにスケーリングする上で、依然として基本的なボトルネックとなっている。
本稿では,情報フローの観点から,因果的注意機構を再考する。
因果的制約のため、初期位置のトークンはその後のトークンの集合に関与する。
しかし、既存のスパース法は一般に、階層内の全てのトークン位置に対して一様のトップk選択を適用し、因果アーキテクチャに固有のトークン情報の累積依存性を無視している。
そこで本稿では,情報フローに整合した新しいプラグアンドプレイ空間モジュールであるStemを提案する。
まず、StemはToken Position-Decay戦略を採用し、各レイヤ内で位置依存のトップkを適用して、再帰的依存関係に対する初期トークンを保持する。
次に、情報豊富なトークンを保存するために、StemはOutput-Aware Metricを使用する。
近似出力の大きさに基づいて、ハイインパクトトークンを優先順位付けする。
大規模な評価では、Stemは計算を削減し、遅延を埋め込むことで精度が向上している。
関連論文リスト
- InfoFlow KV: Information-Flow-Aware KV Recomputation for Long Context [23.355776408834473]
クエリからの単純な注意ノルム信号は、意味的に関連があり、情報を伝達するために構造的に位置付けられたトークンを確実に識別する。
LLMおよびVLMベンチマークの実験は、同等の効率予算の下で、以前の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2026-03-05T16:33:20Z) - Token Sparse Attention: Efficient Long-Context Inference with Interleaved Token Selection [13.937483869660648]
トークンスパース注意(Token Sparse Attention)は、トークン単位のスペーシフィケーション機構で、注意中のトークンセットの削減に、ヘッドあたりの$Q$, $K$, $V$を圧縮する。
Token Sparse Attention は精度とレイテンシのトレードオフを常に改善し、128Kコンテキストで最大$$3.23のアテンションスピードアップを実現し、精度を1%以下に抑える。
論文 参考訳(メタデータ) (2026-02-03T07:31:14Z) - LMK > CLS: Landmark Pooling for Dense Embeddings [18.49372789918725]
ランドマーク(LMK)プーリングを導入し、シーケンスをチャンクに分割し、チャンク間にランドマークトークンを挿入し、ランドマークトークンの埋め込みを平均プールすることで最終表現を形成する。
この単純なメカニズムは、少数の特別なトークンを導入するコストで、局所的な有能な特徴を犠牲にすることなく、長文の外挿を改善する。
論文 参考訳(メタデータ) (2026-01-29T10:40:37Z) - Hierarchical Token Prepending: Enhancing Information Flow in Decoder-based LLM Embeddings [52.49524240846879]
本稿では,注目レベルの圧縮と読み出しレベルのオーバーシャッシングを緩和する階層型トークンプレッペンディングを提案する。
HTPは、入力をブロックに分割し、ブロックレベルの要約トークンをその後のブロックにプリペンドし、後方情報フローの経路を作成する。
シンプルなアーキテクチャに依存しない方法として、HTPはゼロショットモデルと微調整モデルの両方を強化し、優れた長期文書埋め込みへのスケーラブルなルートを提供する。
論文 参考訳(メタデータ) (2025-11-18T19:37:40Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。