論文の概要: UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification
- arxiv url: http://arxiv.org/abs/2605.06221v1
- Date: Thu, 07 May 2026 13:18:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.828469
- Title: UniPrefill: Universal Long-Context Prefill Acceleration via Block-wise Dynamic Sparsification
- Title(参考訳): UniPrefill: Block-wise Dynamic SparsificationによるUniversal Long-Context Prefill Acceleration
- Authors: Qihang Fan, Huaibo Huang, Zhiying Wu, Bingning Wang, Ran He,
- Abstract要約: トークンレベルでモデルを加速するフレームワークであるUniPrefillを紹介します。
UniPrefillがTimeTo-First-Token(TTTF)で最大2.1倍の高速化を実現
- 参考スコア(独自算出の注目度): 45.624568309628756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) continue to advance rapidly, they are becoming increasingly capable while simultaneously demanding ever-longer context lengths. To improve the inference efficiency of long-context processing, several novel low-complexity hybrid architectures have recently been proposed, effectively alleviating the computational burden of long-context inference. However, existing research on long-context prefill acceleration remains predominantly focused on sparse attention mechanisms, which achieve their maximum speedup only on full-attention models. When transferred to emerging architectures--such as linear/full attention hybrids or sliding window/full attention hybrids--these prefill acceleration approaches suffer significant performance degradation. Furthermore, such methods are generally incompatible with continuous batching, making them difficult to integrate into modern inference engines such as vLLM. To this end, we propose UniPrefill, a prefill acceleration framework applicable to virtually any model architecture, which directly accelerates the model's computation at the token level. We further implement UniPrefill as a continuous batching operator and extend vLLM's scheduling strategy to natively support prefill-decode co-processing and tensor parallel for UniPrefill, enabling its seamless integration into vLLM. UniPrefill achieves up to 2.1x speedup in Time-To-First-Token (TTFT), with the acceleration becoming increasingly pronounced as the number of concurrent requests grows.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩し続けており、より長いコンテキスト長を同時に要求しながら、能力の向上が進んでいる。
長文処理の推論効率を向上させるため,近年,複数の新しい低複雑さハイブリッドアーキテクチャが提案され,長文推論の計算負担を効果的に軽減している。
しかし、従来の長文プリフィル加速の研究は、フルアテンションモデルでのみ最大限のスピードアップを達成できるスパースアテンション機構に主に焦点を絞っている。
リニア/フルアテンションハイブリッドやスライディングウインドウ/フルアテンションハイブリッドなど、新興アーキテクチャに移行すると、これらのプリフィルアクセラレーションアプローチは大幅な性能低下を被る。
さらに、このような手法は一般に連続的なバッチ処理とは相容れないため、vLLMのような現代的な推論エンジンに統合することは困難である。
そこで本研究では,任意のモデルアーキテクチャに適用可能なプリフィル・アクセラレーション・フレームワークであるUniPrefillを提案し,トークンレベルでモデル計算を直接高速化する。
さらに、連続バッチ演算子としてUniPrefillを実装し、vLLMのスケジューリング戦略を拡張して、UniPrefillのプリフィル-デコードコプロセッサとテンソル並列をネイティブにサポートし、vLLMへのシームレスな統合を可能にする。
UniPrefillは、TTFT(Time-to-First-Token)で最大2.1倍のスピードアップを実現し、同時リクエストの数が増加するにつれて加速がますます顕著になる。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - A Unified Sparse Attention via Multi-Granularity Compression [0.6848057161210613]
複合トークンの概念を導入する統一機構であるUniSparseについて述べる。
複数のモダリティとタスクにわたって、UniSparseは精度と効率の両面で最先端のスパースアテンション手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-12-16T04:42:31Z) - Fast-ARDiff: An Entropy-informed Acceleration Framework for Continuous Space Autoregressive Generation [12.384836052394272]
自己回帰(AR)拡散ハイブリッドパラダイムはARの構造モデリングと拡散合成を組み合わせたものである。
両コンポーネントを協調的に最適化するAR拡散フレームワークFast-ARDiffを提案する。
Fast-ARDiffは、さまざまなモデルにわたる最先端のアクセラレーションを実現する。
論文 参考訳(メタデータ) (2025-12-09T12:35:18Z) - FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via Neural Action Tokenization [61.10456021136654]
本稿では,効率的で汎用的なロボット学習のための統合フレームワークであるFASTerを紹介する。
FASTerVQは、アクションチャンクをシングルチャネルイメージとしてエンコードし、高い圧縮比を維持しながら、グローバルな時間的依存関係をキャプチャする。
FASTerVLAはブロックワイドの自動回帰デコーディングと軽量アクションエキスパートを備えたトークンライザ上に構築されており、推論の高速化とタスクパフォーマンスの向上を実現している。
論文 参考訳(メタデータ) (2025-12-04T16:21:38Z) - InfLLM-V2: Dense-Sparse Switchable Attention for Seamless Short-to-Long Adaptation [56.694702609077495]
ロングシーケンス処理は、現代の大規模言語モデルにとって重要な機能である。
InfLLM-V2は、ショートシーケンスからロングシーケンスまでのモデルをシームレスに適応する訓練可能なスパースアテンションフレームワークである。
実験では、InfLLM-V2は高密度の注意より4$times$速いが、98.1%と99.7%のパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-09-29T12:08:33Z) - FastGRPO: Accelerating Policy Optimization via Concurrency-aware Speculative Decoding and Online Draft Learning [11.68914161151634]
グループ相対ポリシー最適化(GRPO)は、大規模言語モデルの推論能力を改善する上で大きな可能性を証明している。
本稿では, リアルタイムレベルに応じて, ドラフトと検証戦略を調整する投機的復号化フレームワークを提案する。
提案手法は,2.35xから2.72xまでのエンドツーエンドの高速化を実現し,効率性においてベースラインアプローチを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-09-26T02:48:41Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - COST-EFF: Collaborative Optimization of Spatial and Temporal Efficiency
with Slenderized Multi-exit Language Models [16.586312156966635]
トランスフォーマーベースの事前訓練言語モデル(PLM)は、高い能力にもかかわらず過度のオーバーヘッドに悩まされている。
既存の静的圧縮モデルは、入力インスタンス間の様々な複雑さに気づいていない。
静的モデル圧縮と動的推論アクセラレーションを統合したPLMの協調最適化を提案する。
論文 参考訳(メタデータ) (2022-10-27T15:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。