論文の概要: Hydragen: High-Throughput LLM Inference with Shared Prefixes
- arxiv url: http://arxiv.org/abs/2402.05099v2
- Date: Mon, 13 May 2024 08:49:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 00:13:55.207449
- Title: Hydragen: High-Throughput LLM Inference with Shared Prefixes
- Title(参考訳): Hydragen: 共有プレフィックスによる高速LEM推論
- Authors: Jordan Juravsky, Bradley Brown, Ryan Ehrlich, Daniel Y. Fu, Christopher Ré, Azalia Mirhoseini,
- Abstract要約: Hydragenはハードウェアを意識した、共有プレフィックスによる注意の正確な実装である。
提案手法は,エンドツーエンドのCodeLlama-13bスループットを最大32倍向上させる。
- 参考スコア(独自算出の注目度): 39.622276190997205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based large language models (LLMs) are now deployed to hundreds of millions of users. LLM inference is commonly performed on batches of sequences that share a prefix, such as few-shot examples or a chatbot system prompt. Decoding in this large-batch setting can be bottlenecked by the attention operation, which reads large key-value (KV) caches from memory and computes inefficient matrix-vector products for every sequence in the batch. In this work, we introduce Hydragen, a hardware-aware exact implementation of attention with shared prefixes. Hydragen computes attention over the shared prefix and unique suffixes separately. This decomposition enables efficient prefix attention by batching queries together across sequences, reducing redundant memory reads and enabling the use of hardware-friendly matrix multiplications. Our method can improve end-to-end CodeLlama-13b throughput by up to 32x against competitive baselines, with speedup growing with the batch size and shared prefix length. Hydragen also enables the use of very long shared contexts: with a large batch size, increasing the prefix length from 1K to 16K tokens decreases Hydragen throughput by less than 15%, while the throughput of baselines drops by over 90%. Hydragen generalizes beyond simple prefix-suffix decomposition and can be applied to tree-based prompt sharing patterns, allowing us to further reduce inference time on competitive programming problems by 55%.
- Abstract(参考訳): Transformerベースの大規模言語モデル(LLM)は現在、数億のユーザにデプロイされている。
LLM推論は、いくつかの例やチャットボットシステムプロンプトなど、プレフィックスを共有するシーケンスのバッチで一般的に実行される。
この大きなバッチ設定でのデコーディングは、メモリから大きなキー値(KV)キャッシュを読み出し、バッチ内の各シーケンスに対して非効率な行列ベクトル積を計算するアテンション操作によってボトルネックになる可能性がある。
本稿では,ハードウェアを意識した,共有プレフィックスによる注意の正確な実装であるHydragenを紹介する。
Hydragenは共有接頭辞とユニークな接尾辞を別々に計算する。
この分解により、クエリをシーケンス間でバッチ化し、冗長なメモリ読み込みを減らし、ハードウェアフレンドリーな行列乗算を可能にする。
提案手法は,バッチサイズとプレフィックス長の共有により高速化され,競合するベースラインに対して最大32倍のスループット向上を実現する。
バッチサイズが大きく、プレフィックス長を1Kから16Kトークンに増やすと、Hydragenのスループットは15%以下に低下し、ベースラインのスループットは90%以上低下する。
Hydragenは単純な接頭辞分解を超えて一般化し、ツリーベースのプロンプト共有パターンに適用できるため、競合するプログラミング問題に対する推論時間を55%削減できる。
関連論文リスト
- Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Prepacking: A Simple Method for Fast Prefilling and Increased Throughput in Large Language Models [48.592730159983276]
Prefillingは、自己回帰生成前のプロンプトにおける入力トークンのキー値キャッシュの計算である。
より長い入力プロンプト長の場合、プリフィルはデコード時間にかなりのオーバーヘッドをもたらす。
本稿では,プリフィル計算を最適化する簡易かつ効果的な方法であるPrepackingを提案する。
論文 参考訳(メタデータ) (2024-04-15T07:49:10Z) - Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。
テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。
提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文 参考訳(メタデータ) (2024-04-04T17:48:28Z) - ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition [3.659659889927316]
ChunkAttentionは、大きな言語モデルのためのプレフィックス対応のセルフアテンションモジュールである。
複数のリクエストにまたがる一致したプロンプトプレフィックスを検出し、実行時にそのキー/値テンソルをメモリで共有する。
実験によると、ChunkAttentionは、最先端の実装と比較して、自己保持カーネルを3.2-4.8$times$で高速化できる。
論文 参考訳(メタデータ) (2024-02-23T09:29:19Z) - Context Compression for Auto-regressive Transformers with Sentinel
Tokens [37.07722536907739]
本稿では,特定のトークンの中間活性化をコンパクトに段階的に圧縮できるプラグイン・アンド・プレイ方式を提案する。
ドメイン内言語モデリングとゼロショットオープンエンド文書生成の両方の実験は、我々のアプローチの利点を実証している。
論文 参考訳(メタデータ) (2023-10-12T09:18:19Z) - SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked
Prefills [9.821549185732199]
大規模言語モデル(LLM)推論は、プリフィルとデコードという2つの異なるフェーズから構成される。
デコードフェーズは、要求毎に1つのトークンを生成するため、低い計算利用率をもたらす。
Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。
提案手法により,モデルおよびハードウェア間での推論性能が大幅に向上した。
論文 参考訳(メタデータ) (2023-08-31T00:03:02Z) - S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput [8.460271675765314]
大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
現在のLLMサービスフレームワークの1つは、完全なシーケンスを生成することを保証するために、KVキャッシュの最大シーケンス長を予約している。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
論文 参考訳(メタデータ) (2023-06-09T16:13:43Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。