論文の概要: FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling
- arxiv url: http://arxiv.org/abs/2603.06199v1
- Date: Fri, 06 Mar 2026 12:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.674351
- Title: FlashPrefill: Instantaneous Pattern Discovery and Thresholding for Ultra-Fast Long-Context Prefilling
- Title(参考訳): Flash Prefill: 超長期プレフィルのための即時パターン発見と閾値設定
- Authors: Qihang Fan, Huaibo Huang, Zhiying Wu, Juqiu Wang, Bingning Wang, Ran He,
- Abstract要約: FlashPrefillは、瞬時パターン発見としきい値設定による超高速プリフィルを可能にするフレームワークである。
FlashPrefillは256Kシーケンスで前例のない27.78倍の高速化を実現している。
短いコンテキストで効率を劣化させる既存の方法とは異なり、FlashPrefillは4Kコンテキスト長でも1.71倍のスピードアップを維持している。
- 参考スコア(独自算出の注目度): 43.057651076580264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-context modeling is a pivotal capability for Large Language Models, yet the quadratic complexity of attention remains a critical bottleneck, particularly during the compute-intensive prefilling phase. While various sparse attention mechanisms have been explored, they typically suffer from either significant search latency or insufficient sparsity. In this paper, we propose FlashPrefill, a framework enabling ultra-fast prefilling via instantaneous pattern discovery and thresholding. FlashPrefill leverages a fast block-searching technique to simultaneously locate dynamic vertical, slash, and block-sparse attention patterns. Crucially, it introduces a dynamic thresholding mechanism that bypasses the prohibitive overhead of sorting or accumulating attention scores while effectively eliminating the long-tail distribution to enhance sparsity. Extensive evaluations demonstrate that FlashPrefill achieves a substantial leap in efficiency, delivering an unprecedented 27.78x speedup on 256K sequences. Notably, unlike existing methods that incur efficiency degradation on shorter contexts, FlashPrefill maintains a 1.71x speedup even at a 4K context length, demonstrating its robustness and practical utility across varying sequence scales.
- Abstract(参考訳): 長期コンテキストモデリングは、大規模言語モデルにとって重要な能力であるが、特に計算集約的な準備段階において、注意の二次的な複雑さは重要なボトルネックである。
様々な注意機構が検討されているが、それらは典型的には大きな検索遅延または不十分な間隔のいずれかに悩まされている。
本稿では,瞬時パターン発見としきい値設定による超高速プリフィルを実現するフレームワークであるFlashPrefillを提案する。
FlashPrefillは、高速なブロック探索技術を利用して、動的垂直、スラッシュ、およびブロックスパースアテンションパターンを同時に検出する。
重要なことに、これはダイナミックなしきい値設定機構を導入し、ソートや注意点の蓄積の禁止的オーバーヘッドを回避し、長い尾の分布を効果的に排除し、空間性を高める。
大規模な評価では、FlashPrefillは256Kシーケンスで前例のない27.78倍の高速化を実現している。
特に、短いコンテキストで効率を劣化させる既存の方法とは異なり、FlashPrefillは4Kコンテキスト長でも1.71倍のスピードアップを維持し、その堅牢性と様々なシーケンススケールでの実用性を実証している。
関連論文リスト
- Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - LiteAttention: A Temporal Sparse Attention for Diffusion Transformers [1.3471268811218626]
LiteAttentionは時間的コヒーレンスを利用して、デノナイジングシーケンスを横断する進化的計算スキップを可能にする。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、プロダクションビデオ拡散モデルにかなりのスピードアップを示す。
論文 参考訳(メタデータ) (2025-11-14T08:26:55Z) - SpecExtend: A Drop-in Enhancement for Speculative Decoding of Long Sequences [11.225649178057695]
SpecExtendは、追加のトレーニングなしで長いシーケンスでの投機的復号化を改善する。
長い入力のドラフト精度と速度をトレーニングせずに向上させるため,クロスモデル検索を提案する。
SpecExtendは16K-tokenの長い要約で最大2.84倍、長い推論で最大3.86倍の投機的復号化を加速する。
論文 参考訳(メタデータ) (2025-05-27T06:30:00Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。