論文の概要: S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput
- arxiv url: http://arxiv.org/abs/2306.06000v1
- Date: Fri, 9 Jun 2023 16:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:28:58.838396
- Title: S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput
- Title(参考訳): S$^{3}$:高スループットのための生成推論におけるGPU利用の増加
- Authors: Yunho Jin, Chun-Feng Wu, David Brooks, Gu-Yeon Wei
- Abstract要約: 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
現在のLLMサービスフレームワークの1つは、完全なシーケンスを生成することを保証するために、KVキャッシュの最大シーケンス長を予約している。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
- 参考スコア(独自算出の注目度): 8.460271675765314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating texts with a large language model (LLM) consumes massive amounts
of memory. Apart from the already-large model parameters, the key/value (KV)
cache that holds information about previous tokens in a sequence can grow to be
even larger than the model itself. This problem is exacerbated in one of the
current LLM serving frameworks which reserves the maximum sequence length of
memory for the KV cache to guarantee generating a complete sequence as they do
not know the output sequence length. This restricts us to use a smaller batch
size leading to lower GPU utilization and above all, lower throughput. We argue
that designing a system with a priori knowledge of the output sequence can
mitigate this problem. To this end, we propose S$^{3}$, which predicts the
output sequence length, schedules generation queries based on the prediction to
increase device resource utilization and throughput, and handle mispredictions.
Our proposed method achieves 6.49$\times$ throughput over those systems that
assume the worst case for the output sequence length.
- Abstract(参考訳): 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
すでに大きなモデルパラメータは別として、シーケンス内の以前のトークンに関する情報を保持するkey/value(kv)キャッシュは、モデル自体よりも大きくなる可能性がある。
この問題は、kvキャッシュのメモリの最大シーケンス長を予約する現在のllmサービスフレームワークの1つで悪化し、出力シーケンス長が分かっていないため、完全なシーケンスを生成することを保証する。
これにより、バッチサイズが小さくなり、GPU使用率が低下し、スループットが低下します。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
この目的のために、出力シーケンス長を予測し、予測に基づいて生成クエリをスケジュールし、デバイスリソースの利用量とスループットを高め、誤予測を処理するS$^{3}$を提案する。
提案手法は,出力シーケンス長が最悪の場合を想定したシステムに対して6.49$\times$スループットを実現する。
関連論文リスト
- Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。
本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。
我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文 参考訳(メタデータ) (2024-07-23T06:21:24Z) - MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。
我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文 参考訳(メタデータ) (2024-07-02T17:59:56Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Graph Conditioned Sparse-Attention for Improved Source Code
Understanding [0.0]
本稿では,スパース自己認識機構の注目マスクとしてグラフ隣接行列を用いて,ソースコードスニペットをグラフのモダリティで条件付けすることを提案する。
提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。
論文 参考訳(メタデータ) (2021-12-01T17:21:55Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Time-aware Large Kernel Convolutions [41.19006428608901]
Time-Aware Large Kernel (TaLK) Convolutionsは、カーネルの総和の大きさを予測するために学習する新しい適応的畳み込み演算である。
提案手法は, 大規模標準機械翻訳, 抽象要約, 言語モデリングデータセットにおいて評価される。
論文 参考訳(メタデータ) (2020-02-08T15:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。