論文の概要: Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity
- arxiv url: http://arxiv.org/abs/2505.14884v1
- Date: Tue, 20 May 2025 20:15:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.737831
- Title: Polar Sparsity: High Throughput Batched LLM Inferencing with Scalable Contextual Sparsity
- Title(参考訳): Polar Sparsity: スケーラブルなコンテキストスペーサを備えた高スループットバッチLDM推論
- Authors: Susav Shrestha, Brad Settlemyer, Nikoli Dryden, Narasimha Reddy,
- Abstract要約: 我々はPolar Sparsityを導入し、バッチサイズとシーケンスの長さをスケールするときに、高密度からアテンション層への空間的重要度の重要なシフトを強調します。
我々は, OPT, LLaMA-2 & 3 などのモデルに対して, 様々なバッチサイズおよびシーケンス長に対して最大 (2.2 時間) のエンドツーエンド速度を, 精度を損なうことなく実現し, ハードウェア効率が高く, 分散性に配慮したカーネルを開発した。
- 参考スコア(独自算出の注目度): 4.24164487223914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accelerating large language model (LLM) inference is critical for real-world deployments requiring high throughput and low latency. Contextual sparsity, where each token dynamically activates only a small subset of the model parameters, shows promise but does not scale to large batch sizes due to union of active neurons quickly approaching dense computation. We introduce Polar Sparsity, highlighting a key shift in sparsity importance from MLP to Attention layers as we scale batch size and sequence length. While MLP layers become more compute-efficient under batching, their sparsity vanishes. In contrast, attention becomes increasingly more expensive at scale, while their head sparsity remains stable and batch-invariant. We develop hardware-efficient, sparsity-aware GPU kernels for selective MLP and Attention computations, delivering up to \(2.2\times\) end-to-end speedups for models like OPT, LLaMA-2 \& 3, across various batch sizes and sequence lengths without compromising accuracy. To our knowledge, this is the first work to demonstrate that contextual sparsity can scale effectively to large batch sizes, delivering substantial inference acceleration with minimal changes, making Polar Sparsity practical for large-scale, high-throughput LLM deployment systems. Our code is available at: https://github.com/susavlsh10/Polar-Sparsity.
- Abstract(参考訳): 大規模言語モデル(LLM)の推論の高速化は、高いスループットと低レイテンシを必要とする現実的なデプロイメントにおいて重要である。
それぞれのトークンがモデルパラメータの小さなサブセットのみを動的に活性化するコンテキスト空間は、将来性を示すが、高密度計算に素早く近づく活動ニューロンの結合により、大きなバッチサイズにスケールしない。
我々はPolar Sparsityを導入し、バッチサイズとシーケンス長をスケールする際、MLPから注意層への空間的重要性の重要なシフトを強調した。
MLP層はバッチ処理により計算効率が向上するが、その空間性は消滅する。
対照的に、規模が大きくなるにつれて注目はますます高くなるが、頭部の間隔は安定し、バッチ不変である。
OPT, LLaMA-2 \& 3 などのモデルに対して, 様々なバッチサイズとシーケンス長に対して, 精度を損なうことなく, 最大2.2\times\) エンド・ツー・エンド・エンド・スピードアップを実現する。
我々の知る限り、これはコンテキスト空間が大規模なバッチサイズに効果的にスケールできることを示し、最小限の変更でかなりの推論加速を実現し、大規模で高スループットのLCMデプロイメントシステムにおいてPolar Sparsityを実用的なものにする最初の試みである。
私たちのコードは、https://github.com/susavlsh10/Polar-Sparsity.comで利用可能です。
関連論文リスト
- R-Sparse: Rank-Aware Activation Sparsity for Efficient LLM Inference [77.47238561728459]
R-スパース(R-Sparse)は、高度なLCMにおいて高い疎度を達成できる訓練不要なアクティベーション・スパシティ・アプローチである。
10種類のタスクにわたるLlama-2/3およびMistralモデルの実験は、R-Sparseが50%のモデルレベルの間隔で同等のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-04-28T03:30:32Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。
Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。
評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文 参考訳(メタデータ) (2024-10-17T07:07:09Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z) - Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM
Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。
本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。
我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-17T20:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。