論文の概要: Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction
- arxiv url: http://arxiv.org/abs/2510.20787v1
- Date: Thu, 23 Oct 2025 17:53:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.527504
- Title: Alleviating Forgetfulness of Linear Attention by Hybrid Sparse Attention and Contextualized Learnable Token Eviction
- Title(参考訳): ハイブリッド・スパース・アテンションと文脈適応型学習トークン・エミッションによる線形注意の目的感の緩和
- Authors: Mutian He, Philip N. Garner,
- Abstract要約: 有限メモリは、検索集約的なタスクに害を与える忘れやすさを誘導する。
過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルについて検討する。
本稿では,新しい学習可能なトークン消去手法を提案する。
- 参考スコア(独自算出の注目度): 12.740812798007573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear-attention models that compress the entire input sequence into a fixed-size recurrent state offer an efficient alternative to Transformers, but their finite memory induces forgetfulness that harms retrieval-intensive tasks. To mitigate the issue, we explore a series of hybrid models that restore direct access to past tokens. We interleave token mixers with intermediate time and space complexity between linear and full attention, including sparse attention with token eviction, and the query-aware native sparse attention. Particularly, we propose a novel learnable token eviction approach. Combined with sliding-window attention, an end-to-end trainable lightweight CNN aggregates information from both past and future adjacent tokens to adaptively retain a limited set of critical KV-pairs per head, maintaining linear attention's constant time and space complexity. Efficient Triton kernels for the sparse attention mechanisms are provided. Empirical evaluations on retrieval-intensive benchmarks support the effectiveness of our approaches.
- Abstract(参考訳): 入力シーケンス全体を一定サイズのリカレント状態に圧縮する線形アテンションモデルは、トランスフォーマーに代わる効率的な代替手段を提供するが、その有限メモリは、検索集約的なタスクに影響を及ぼす忘れやすさを誘導する。
問題を緩和するために、過去のトークンへの直接アクセスを復元する一連のハイブリッドモデルを探索する。
トークンの排除によるスパースアテンション,クエリ対応ネイティブスパースアテンションなど,線形と全注意の中間時間と空間の複雑さを伴うトークンミキサーをインターリーブする。
特に,学習可能な新しいトークン消去手法を提案する。
スライドウインドウの注意と組み合わさって、エンドツーエンドのトレーニング可能な軽量CNNは、過去と将来の隣接するトークンから情報を集約し、1頭あたりの臨界KVペアの限られたセットを適応的に保持し、線形アテンションの一定時間と空間の複雑さを維持する。
スパースアテンション機構のための効率的なトリトンカーネルを提供する。
検索集約ベンチマークの実証評価は,提案手法の有効性を裏付けるものである。
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Easy attention: A simple attention mechanism for temporal predictions with transformers [2.172584429650463]
キー,クエリ,ソフトマックスは,時間的シーケンスにおける長期依存を捉えるのに必要な注意点を得るのに必要ではないことを示す。
提案手法は,注意点を直接学習可能なパラメータとして扱う。
この手法はカオスシステムの時間的ダイナミクスの再構築と予測において優れた結果をもたらす。
論文 参考訳(メタデータ) (2023-08-24T15:54:32Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。