論文の概要: STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs
- arxiv url: http://arxiv.org/abs/2602.02180v1
- Date: Mon, 02 Feb 2026 14:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.227086
- Title: STILL: Selecting Tokens for Intra-Layer Hybrid Attention to Linearize LLMs
- Title(参考訳): STILL:LLMの線形化を目的とした階層内ハイブリッドアテンションのためのトークンの選択
- Authors: Weikang Meng, Liangyu Huo, Yadan Luo, Jiawen Guan, Jingyi Zhang, Yingjian Li, Zheng Zhang,
- Abstract要約: LLM(Linearizing Pretrained Large Language Model)は主に層内ハイブリッドアテンション機構に依存している。
LLMを効率的に線形化するための層内ハイブリッド線形化フレームワークSTILLを提案する。
- 参考スコア(独自算出の注目度): 23.745366354566315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linearizing pretrained large language models (LLMs) primarily relies on intra-layer hybrid attention mechanisms to alleviate the quadratic complexity of standard softmax attention. Existing methods perform token routing based on sliding-window partitions, resulting in position-based selection and fails to capture token-specific global importance. Meanwhile, linear attention further suffers from distribution shift caused by learnable feature maps that distort pretrained feature magnitudes. Motivated by these limitations, we propose STILL, an intra-layer hybrid linearization framework for efficiently linearizing LLMs. STILL introduces a Self-Saliency Score with strong local-global consistency, enabling accurate token selection using sliding-window computation, and retains salient tokens for sparse softmax attention while summarizing the remaining context via linear attention. To preserve pretrained representations, we design a Norm-Preserved Feature Map (NP-Map) that decouples feature direction from magnitude and reinjects pretrained norms. We further adopt a unified training-inference architecture with chunk-wise parallelization and delayed selection to improve hardware efficiency. Experiments show that STILL matches or surpasses the original pretrained model on commonsense and general reasoning tasks, and achieves up to a 86.2% relative improvement over prior linearized attention methods on long-context benchmarks.
- Abstract(参考訳): LLM(Linearizing Pretrained Large Language Model)は主に、標準ソフトマックスの注意の2次複雑さを軽減するために、層内ハイブリッドアテンション機構に依存している。
既存の方法は、スライドウインドウ分割に基づいてトークンルーティングを行い、結果として位置ベースの選択が行われ、トークン固有のグローバルな重要性を捉えることができない。
一方、線形注意は、事前訓練された特徴量の歪曲する学習可能な特徴写像による分布シフトにさらに悩まされる。
これらの制約により,LLMを効率的に線形化するための層内ハイブリッド線形化フレームワークSTILLを提案する。
STILLは、強い局所的一貫性を持つセルフサリエンシスコアを導入し、スライドウインドウ計算による正確なトークン選択を可能にし、残りのコンテキストを線形アテンションで要約しながら、ソフトマックスアテンションをスパースするためのサリエントトークンを保持する。
事前学習した表現を保存するために,特徴方向を大きさから分離し,事前学習した規範を再帰するNorm-Preserved Feature Map (NP-Map) を設計する。
さらに、ハードウェア効率を向上させるために、チャンクワイド並列化と遅延選択を備えた統合トレーニング推論アーキテクチャを採用する。
実験の結果、STILLはコモンセンスと一般的な推論タスクの事前訓練されたモデルと一致し、長いコンテキストのベンチマークにおいて以前の線形化注意法よりも86.2%の相対的な改善が達成された。
関連論文リスト
- LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - Dissecting Linear Recurrent Models: How Different Gating Strategies Drive Selectivity and Generalization [5.057995083193427]
線形リカレントニューラルネットワークは、トランスフォーマーのソフトマックスアテンションメカニズムの効率的な代替手段として登場した。
既存のベンチマークタスクは、大きな違いを明らかにするには単純すぎるか、実験のために過度にリソースを消費する。
本稿では,SelectivBenchを紹介した。SelectivBenchは軽量でカスタマイズ可能な,シーケンスモデルを体系的に評価するためのベンチマークタスクである。
論文 参考訳(メタデータ) (2026-01-18T21:49:21Z) - Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - Customizing the Inductive Biases of Softmax Attention using Structured Matrices [46.30740502186753]
注意の中心となるコンポーネントはスコアリング関数で、入力を低次元のクエリとキーに変換する。
BTT(Block-Train)やMLR(Multi-Level Low Rank)など,高いランクを持つ計算効率の高い構造化行列に基づく新たなスコアリング関数を提案する。
MLRに基づくアテンション法は,標準アテンションとスライディングウインドウアテンションの変種に比較して,スケーリング法を改良する。
論文 参考訳(メタデータ) (2025-09-09T17:50:58Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。