論文の概要: FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference
- arxiv url: http://arxiv.org/abs/2502.20766v1
- Date: Fri, 28 Feb 2025 06:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:43.094255
- Title: FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference
- Title(参考訳): FlexPrefill: 効率的なロングシーケンス推論のためのコンテキスト対応スパースアテンションメカニズム
- Authors: Xunhao Lai, Jianqiao Lu, Yao Luo, Yiyuan Ma, Xun Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、長時間の推論において計算上の問題に遭遇する。
これまでの努力は、固定されたスパース注意パターンや、限られたケースに基づくスパース注意パターンの同定に頼っていた。
我々はFlexPrefillを紹介した。FlexPrefillはフレキシブルなスパースプリフィル機構で、スパースアテンションパターンと計算予算をリアルタイムで動的に調整する。
- 参考スコア(独自算出の注目度): 9.878232553789433
- License:
- Abstract: Large language models (LLMs) encounter computational challenges during long-sequence inference, especially in the attention pre-filling phase, where the complexity grows quadratically with the prompt length. Previous efforts to mitigate these challenges have relied on fixed sparse attention patterns or identifying sparse attention patterns based on limited cases. However, these methods lacked the flexibility to efficiently adapt to varying input demands. In this paper, we introduce FlexPrefill, a Flexible sparse Pre-filling mechanism that dynamically adjusts sparse attention patterns and computational budget in real-time to meet the specific requirements of each input and attention head. The flexibility of our method is demonstrated through two key innovations: 1) Query-Aware Sparse Pattern Determination: By measuring Jensen-Shannon divergence, this component adaptively switches between query-specific diverse attention patterns and predefined attention patterns. 2) Cumulative-Attention Based Index Selection: This component dynamically selects query-key indexes to be computed based on different attention patterns, ensuring the sum of attention scores meets a predefined threshold. FlexPrefill adaptively optimizes the sparse pattern and sparse ratio of each attention head based on the prompt, enhancing efficiency in long-sequence inference tasks. Experimental results show significant improvements in both speed and accuracy over prior methods, providing a more flexible and efficient solution for LLM inference.
- Abstract(参考訳): 大規模言語モデル (LLM) は、特に注意前処理フェーズにおいて、長時間の推論において計算上の問題に遭遇する。
これらの課題を緩和するためのこれまでの努力は、固定されたスパース・アテンション・パターンや、限られたケースに基づいてスパース・アテンション・パターンを特定することに依存してきた。
しかし、これらの手法は様々な入力要求に効率的に適応する柔軟性に欠けていた。
本稿では,フレキシブルスパースプリフィル機構であるFlexPrefillを紹介し,各入力およびアテンションヘッドの要求を満たすために,スパースアテンションパターンと計算予算を動的に動的に調整する。
提案手法の柔軟性は,2つの重要なイノベーションを通じて実証される。
1) クエリ対応スパースパターン決定: Jensen-Shannon分散を測定することで、クエリ固有の多様な注意パターンと事前定義された注意パターンを適応的に切り替える。
2) 累積アテンションに基づくインデックス選択: このコンポーネントは、異なる注意パターンに基づいて計算されるクエリキーインデックスを動的に選択し、注意スコアの合計が予め定義された閾値を満たすことを保証する。
FlexPrefillは、プロンプトに基づいて各アテンションヘッドのスパースパターンとスパース比を適応的に最適化し、ロングシーケンス推論タスクの効率を向上する。
実験の結果,従来の手法よりも高速かつ精度が向上し,LLM推論のより柔軟で効率的な解が得られた。
関連論文リスト
- Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs [10.52833484759311]
本稿では,空間適応型かつキャリブレーションフリーなスパースアテンション機構であるTacticを提案する。
固定されたトークン予算ではなく、累積的な注意スコアに基づいてトークンを動的に選択する。
我々は、Tacticが既存のスパースアテンションアルゴリズムより優れており、精度が良く、7.29倍のデコードアテンションスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2025-02-17T08:39:43Z) - Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - Recycled Attention: Efficient inference for long-context language models [54.00118604124301]
本稿では,入力トークンのサブセットに対して,フルコンテキストアテンションとアテンションを交互に切り替える推論時間手法であるRecycled Attentionを提案する。
部分的に注意を払っていると、全注意を払っている前のトークンの注意パターンをリサイクルし、最も出席しているトークンの上位Kにのみ出席する。
提案手法は,局所的な文脈や注目スコアの高いトークンにのみ参加する推論時加速度法と比較して,現在の復号ステップに関連するトークンを柔軟に選択する。
論文 参考訳(メタデータ) (2024-11-08T18:57:07Z) - TokenSelect: Efficient Long-Context Inference and Length Extrapolation for LLMs via Dynamic Token-Level KV Cache Selection [23.20856449846164]
TokenSelectは、モデルに依存しない、訓練のない、効率的で正確な長文推論手法である。
TokenSelectの総合評価では、注意点の最大23.84倍、エンドツーエンドのレイテンシの最大2.28倍の高速化が示されている。
論文 参考訳(メタデータ) (2024-11-05T07:56:24Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。