論文の概要: Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing
- arxiv url: http://arxiv.org/abs/2505.19578v1
- Date: Mon, 26 May 2025 06:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.221753
- Title: Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing
- Title(参考訳): スパースパターン共有によるLLMの高速化
- Authors: Dan Peng, Zhihui Fu, Zewen Ye, Zhuoran Song, Jun Wang,
- Abstract要約: スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。
本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。
本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
- 参考スコア(独自算出の注目度): 4.7924863950812995
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Sparse attention methods exploit the inherent sparsity in attention to speed up the prefilling phase of long-context inference, mitigating the quadratic complexity of full attention computation. While existing sparse attention methods rely on predefined patterns or inaccurate estimations to approximate attention behavior, they often fail to fully capture the true dynamics of attention, resulting in reduced efficiency and compromised accuracy. Instead, we propose a highly accurate sparse attention mechanism that shares similar yet precise attention patterns across heads, enabling a more realistic capture of the dynamic behavior of attention. Our approach is grounded in two key observations: (1) attention patterns demonstrate strong inter-head similarity, and (2) this similarity remains remarkably consistent across diverse inputs. By strategically sharing computed accurate patterns across attention heads, our method effectively captures actual patterns while requiring full attention computation for only a small subset of heads. Comprehensive evaluations demonstrate that our approach achieves superior or comparable speedup relative to state-of-the-art methods while delivering the best overall accuracy.
- Abstract(参考訳): スパースアテンション手法は、注意の空間性を利用して、長文推論のプレフィルフェーズを高速化し、フルアテンション計算の2次複雑さを緩和する。
既存のスパースアテンション手法は、事前定義されたパターンや不正確な推定を注意行動の近似に頼っているが、しばしば注意の真のダイナミクスをフルに捉えることに失敗し、効率を低下させ、精度を損なう。
そこで本研究では,頭部に類似しているが正確な注意パターンを共有し,より現実的な注意行動の把握を可能にする,高精度な注意機構を提案する。
本研究のアプローチは,(1)注目パターンは頭部間の強い類似性を示し,(2)この類似性は多様な入力に対して顕著に一致している。
そこで本手法では,頭部の小さな部分集合にのみ注意計算を必要としながら,計算された正確なパターンを戦略的に共有することにより,実際のパターンを効果的にキャプチャする。
包括的評価により,本手法は最先端の手法と比較して,より優れた,あるいは同等の高速化を実現し,全体的な精度を最大限に発揮できることを示す。
関連論文リスト
- Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Focus What Matters: Matchability-Based Reweighting for Local Feature Matching [6.361840891399624]
本稿では,学習可能なバイアス項をアテンションロジットに同時に組み込む新しいアテンション再重み付け機構を提案する。
3つのベンチマークデータセットを用いて実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2025-05-04T15:50:28Z) - CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文 参考訳(メタデータ) (2025-03-31T10:17:01Z) - Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。
本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - Learning Second-Order Attentive Context for Efficient Correspondence
Pruning [22.100653202605965]
対応プルーニングは、一貫した対応 (inliers) の集合から一貫した対応 (inliers) を探索することを目的としている。
そこで本稿では, 対応プルーニングを効果的かつ効率的に行う方法を提案する。
論文 参考訳(メタデータ) (2023-03-28T06:40:11Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。