論文の概要: Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
- arxiv url: http://arxiv.org/abs/2404.09529v1
- Date: Mon, 15 Apr 2024 07:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 13:09:46.059155
- Title: Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models
- Title(参考訳): Prepacking: 大規模言語モデルにおける高速なプレフィルとスループット向上のためのシンプルな方法
- Authors: Siyan Zhao, Daniel Israel, Guy Van den Broeck, Aditya Grover,
- Abstract要約: Prefillingは、自己回帰生成前のプロンプトにおける入力トークンのキー値キャッシュの計算である。
より長い入力プロンプト長の場合、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本稿では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
- 参考スコア(独自算出の注目度): 48.592730159983276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During inference for transformer-based large language models (LLM), prefilling is the computation of the key-value (KV) cache for input tokens in the prompt prior to autoregressive generation. For longer input prompt lengths, prefilling will incur a significant overhead on decoding time. In this work, we highlight the following pitfall of prefilling: for batches containing high-varying prompt lengths, significant computation is wasted by the standard practice of padding sequences to the maximum length. As LLMs increasingly support longer context lengths, potentially up to 10 million tokens, variations in prompt lengths within a batch become more pronounced. To address this, we propose Prepacking, a simple yet effective method to optimize prefilling computation. To avoid redundant computation on pad tokens, prepacking combines prompts of varying lengths into a sequence and packs multiple sequences into a compact batch using a bin-packing algorithm. It then modifies the attention mask and positional encoding to compute multiple prefilled KV-caches for multiple prompts within a single sequence. On standard curated dataset containing prompts with varying lengths, we obtain a significant speed and memory efficiency improvements as compared to the default padding-based prefilling computation within Huggingface across a range of base model configurations and inference serving scenarios.
- Abstract(参考訳): トランスフォーマーベースの大言語モデル(LLM)の推論において、プリフィルは自己回帰生成前のプロンプトにおける入力トークンに対するキー値(KV)キャッシュの計算である。
より長い入力プロンプト長では、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本研究は, プレフィルの落とし穴について述べる: 高変量プロンプト長さを含むバッチの場合, 最大長へのパディングシーケンスの標準的な慣行により, 大幅な計算が無駄になる。
LLMは、最大1000万のトークンを含む、より長いコンテキスト長をサポートするようになると、バッチ内のプロンプト長の変動がより顕著になる。
そこで本研究では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
パッドトークンの冗長な計算を避けるために、プリパッキングは、異なる長さのプロンプトをシーケンスに組み合わせ、ビンパッキングアルゴリズムを用いて複数のシーケンスをコンパクトなバッチにパッキングする。
その後、アテンションマスクと位置エンコーディングを変更して、複数のプリフィルされたKV-キャッシュを1つのシーケンス内で複数のプロンプトに対して計算する。
異なる長さのプロンプトを含む標準的なキュレートデータセットでは,Hugingface内の既定のパディングベースプリフィル計算と比較して,一連のベースモデル構成と推論提供シナリオに対して,大幅な速度とメモリ効率の向上が得られた。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - CritiPrefill: A Segment-wise Criticality-based Approach for Prefilling Acceleration in LLMs [8.649971923487835]
本稿では,CritiPrefillを提案する。
CritiPrefillは、入力シーケンスのクエリとKVキャッシュをセグメントとブロックに分割する。
複数の長コンテキストデータセットの大規模な評価では、Llama3-8Bで2.7倍、Yi-9Bで3.0倍、単一のA100 GPUで128Kのコンテキスト長を持つ。
論文 参考訳(メタデータ) (2024-09-19T06:09:56Z) - Turning Trash into Treasure: Accelerating Inference of Large Language Models with Token Recycling [53.58854856174773]
投機的復号化(英: Speculative decoding)は、推測と検証のパラダイムを通じて推論を加速するアプローチである。
トケンリサイクルは、候補トークンを隣接行列に格納し、幅優先探索アルゴリズムを用いる。
既存の列車不要の手法を30%上回り、訓練方法さえ25%上回っている。
論文 参考訳(メタデータ) (2024-08-16T12:20:56Z) - LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference [30.722379261991563]
LazyLLMは次のトークン予測に重要なトークンのKVを選択的に計算する手法である。
LLama 2 7Bモデルのプレフィルステージを2.34倍の精度で高速化する。
論文 参考訳(メタデータ) (2024-07-19T06:34:45Z) - Let the Code LLM Edit Itself When You Edit the Code [50.46536185784169]
underlinetextbfPositional textbfIntegrity textbfEncoding (PIE)
PIEは、標準的な完全再計算手法に比べて計算オーバーヘッドを85%以上削減する。
その結果、PIEは計算オーバーヘッドを標準の完全再計算手法に比べて85%以上削減することを示した。
論文 参考訳(メタデータ) (2024-07-03T14:34:03Z) - Training-Free Exponential Context Extension via Cascading KV Cache [49.608367376911694]
カスケードサブキャッシュバッファを利用して,最も関連性の高いトークンを選択的に保持する機構を導入する。
本手法は,1Mトークンのフラッシュアテンションと比較して,プリフィルステージ遅延を6.8倍削減する。
論文 参考訳(メタデータ) (2024-06-24T03:59:17Z) - Dataset Decomposition: Faster LLM Training with Variable Sequence Length Curriculum [30.46329559544246]
本稿では,新しい可変シーケンス長トレーニング手法であるデータセット分解を導入する。
ベースラインアプローチでトレーニングした2kコンテキスト長モデルと同じコストで,8kコンテキスト長1Bモデルをトレーニングする。
ウェブスケールコーパスの実験により,我々の手法は標準言語評価や長文ベンチマークの性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-05-21T22:26:01Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Hydragen: High-Throughput LLM Inference with Shared Prefixes [39.622276190997205]
Hydragenはハードウェアを意識した、共有プレフィックスによる注意の正確な実装である。
提案手法は,エンドツーエンドのCodeLlama-13bスループットを最大32倍向上させる。
論文 参考訳(メタデータ) (2024-02-07T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。