論文の概要: MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention
- arxiv url: http://arxiv.org/abs/2407.02490v2
- Date: Wed, 30 Oct 2024 14:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:24:48.911798
- Title: MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention
- Title(参考訳): MInference 1.0: ダイナミックスパースアテンションによる長期LLMの事前充填の高速化
- Authors: Huiqiang Jiang, Yucheng Li, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Zhenhua Han, Amir H. Abdi, Dongsheng Li, Chin-Yew Lin, Yuqing Yang, Lili Qiu,
- Abstract要約: Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
- 参考スコア(独自算出の注目度): 36.49445805074941
- License:
- Abstract: The computational challenges of Large Language Model (LLM) inference remain a significant barrier to their widespread deployment, especially as prompt lengths continue to increase. Due to the quadratic complexity of the attention computation, it takes 30 minutes for an 8B LLM to process a prompt of 1M tokens (i.e., the pre-filling stage) on a single A100 GPU. Existing methods for speeding up prefilling often fail to maintain acceptable accuracy or efficiency when applied to long-context LLMs. To address this gap, we introduce MInference (Milliontokens Inference), a sparse calculation method designed to accelerate pre-filling of long-sequence processing. Specifically, we identify three unique patterns in long-context attention matrices-the A-shape, Vertical-Slash, and Block-Sparsethat can be leveraged for efficient sparse computation on GPUs. We determine the optimal pattern for each attention head offline and dynamically build sparse indices based on the assigned pattern during inference. With the pattern and sparse indices, we perform efficient sparse attention calculations via our optimized GPU kernels to significantly reduce the latency in the pre-filling stage of long-context LLMs. Our proposed technique can be directly applied to existing LLMs without any modifications to the pre-training setup or additional fine-tuning. By evaluating on a wide range of downstream tasks, including InfiniteBench, RULER, PG-19, and Needle In A Haystack, and models including LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K, and Qwen2-128K, we demonstrate that MInference effectively reduces inference latency by up to 10x for pre-filling on an A100, while maintaining accuracy. Our code is available at https://aka.ms/MInference.
- Abstract(参考訳): 大規模言語モデル(LLM)推論の計算上の課題は、特にプロンプト長が増加し続けるにつれて、広く展開する上で重要な障壁となっている。
注意計算の二次的な複雑さのため、8B LLMが1つのA100 GPU上で1Mトークン(すなわちプリフィルステージ)のプロンプトを処理するのに30分かかる。
プリフィルを高速化する既存の方法は、長いコンテキストのLLMに適用した場合、許容する精度や効率を維持することができないことが多い。
このギャップに対処するために、長いシーケンス処理の前処理を高速化するスパース計算法であるMInference(Milliontokens Inference)を導入する。
具体的には、GPU上で効率的なスパース計算に利用できるA字型、垂直スラッシュ、ブロックスパースという長コンテキストアテンション行列の3つのユニークなパターンを同定する。
提案手法では,各アテンションヘッドの最適パターンをオフラインで決定し,アサインされたパターンに基づいてスパースインデックスを動的に構築する。
パターンとスパース指標を用いて、最適化されたGPUカーネルを介して効率的なスパースアテンション計算を行い、長文LLMのプレフィルステージにおける遅延を大幅に低減する。
提案手法は,事前学習や追加の微調整を行うことなく,既存のLCMに直接適用することができる。
InfiniteBench, RULER, PG-19, Needle In A Haystack, および LLaMA-3-1M, GLM4-1M, Yi-200K, Phi-3-128K, Qwen2-128K を含む幅広い下流タスクを評価した結果, MInference は精度を維持しつつ, A100 にプリフィルする際の推論遅延を 10 倍に抑えることを示した。
私たちのコードはhttps://aka.ms/MInference.orgで利用可能です。
関連論文リスト
- MagicPIG: LSH Sampling for Efficient LLM Generation [41.75038064509643]
以上の結果から,TopKの注意力自体が特定の下流タスクの品質低下に悩まされていることが分かる。
局所感性ハッシュ(LSH)に基づく異種システムMagicPIGを提案する。
MagicPIGは、さまざまなタスクに対して高い精度を維持しながら、注意の負荷を大幅に削減する。
論文 参考訳(メタデータ) (2024-10-21T16:44:51Z) - Discovering the Gems in Early Layers: Accelerating Long-Context LLMs
with 1000x Input Token Reduction [47.38471103190534]
大きな言語モデル(LLM)は、長いコンテキスト入力を扱う際、顕著な能力を示してきたが、これは計算リソースとレイテンシの増大によるものである。
本研究では,LLM推論を高速化し,GPUメモリ使用量を削減するために,長期的ボトルネックに対する新たなアプローチを提案する。
本稿では,LLMの初期レイヤをフィルタとして,入力トークンの選択と圧縮を行うアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-25T23:14:47Z) - Enabling Efficient On-Device Fine-Tuning of LLMs Using Only Inference Engines [17.539008562641303]
大規模言語モデル(LLM)は現在、大規模なクラウドサーバ上で事前トレーニングされ、微調整されている。
次のフロンティアはLLMパーソナライズであり、ファンデーションモデルをユーザ/タスク固有のデータで微調整することができる。
リソース制約のあるエッジデバイスの微調整は、かなりのメモリと計算要求のために大きな課題となる。
論文 参考訳(メタデータ) (2024-09-23T20:14:09Z) - Empowering 1000 tokens/second on-device LLM prefilling with mllm-NPU [10.80559106452755]
mllm-NPUはアルゴリズムシステムの共同設計であり、LLMアーキテクチャと現在のNPU設計の間のいくつかの意味的ギャップに対処している。
初めて、mllm-NPUは10億規模のモデルで1000トークン/秒以上のプリフィルを達成する。
論文 参考訳(メタデータ) (2024-07-08T12:20:45Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory [93.20588235940453]
本稿では,トレーニング不要なメモリベースのInfLLMを提案する。
InfLLMは、リモートコンテキストを追加のメモリユニットに格納し、トークン関連ユニットを注目するために効率的なメカニズムを使用する。
シーケンス長が$1,024$Kにスケールしても、InfLLMは依然として、長距離依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-02-07T06:50:42Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - RSC: Accelerating Graph Neural Networks Training via Randomized Sparse
Computations [56.59168541623729]
トレーニンググラフニューラルネットワーク(GNN)は、疎グラフベースの操作がハードウェアによって加速することが難しいため、時間を要する。
我々は,サンプリングに基づく近似による時間的複雑性を低減するために,計算精度のトレードオフを検討する。
本稿では,GNNを近似演算でトレーニングする可能性を初めて示すランダム化スパース計算を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。