論文の概要: S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput
- arxiv url: http://arxiv.org/abs/2306.06000v1
- Date: Fri, 9 Jun 2023 16:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 12:28:58.838396
- Title: S$^{3}$: Increasing GPU Utilization during Generative Inference for
Higher Throughput
- Title(参考訳): S$^{3}$:高スループットのための生成推論におけるGPU利用の増加
- Authors: Yunho Jin, Chun-Feng Wu, David Brooks, Gu-Yeon Wei
- Abstract要約: 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
現在のLLMサービスフレームワークの1つは、完全なシーケンスを生成することを保証するために、KVキャッシュの最大シーケンス長を予約している。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
- 参考スコア(独自算出の注目度): 8.460271675765314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating texts with a large language model (LLM) consumes massive amounts
of memory. Apart from the already-large model parameters, the key/value (KV)
cache that holds information about previous tokens in a sequence can grow to be
even larger than the model itself. This problem is exacerbated in one of the
current LLM serving frameworks which reserves the maximum sequence length of
memory for the KV cache to guarantee generating a complete sequence as they do
not know the output sequence length. This restricts us to use a smaller batch
size leading to lower GPU utilization and above all, lower throughput. We argue
that designing a system with a priori knowledge of the output sequence can
mitigate this problem. To this end, we propose S$^{3}$, which predicts the
output sequence length, schedules generation queries based on the prediction to
increase device resource utilization and throughput, and handle mispredictions.
Our proposed method achieves 6.49$\times$ throughput over those systems that
assume the worst case for the output sequence length.
- Abstract(参考訳): 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。
すでに大きなモデルパラメータは別として、シーケンス内の以前のトークンに関する情報を保持するkey/value(kv)キャッシュは、モデル自体よりも大きくなる可能性がある。
この問題は、kvキャッシュのメモリの最大シーケンス長を予約する現在のllmサービスフレームワークの1つで悪化し、出力シーケンス長が分かっていないため、完全なシーケンスを生成することを保証する。
これにより、バッチサイズが小さくなり、GPU使用率が低下し、スループットが低下します。
出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
この目的のために、出力シーケンス長を予測し、予測に基づいて生成クエリをスケジュールし、デバイスリソースの利用量とスループットを高め、誤予測を処理するS$^{3}$を提案する。
提案手法は,出力シーケンス長が最悪の場合を想定したシステムに対して6.49$\times$スループットを実現する。
関連論文リスト
- Sequence can Secretly Tell You What to Discard [57.109354287786154]
メモリフットプリントを大幅に削減するKVキャッシュを最適化するための新しい手法を提案する。
我々は,KVキャッシュの消去ポリシーであるCORMを提案し,モデルに微調整を加えることなく,推論のためのキーと値のペアを動的に保持する。
CORMは、LongBenchの6つのタスクで顕著なパフォーマンス劣化を伴わずに、KVキャッシュの推論メモリ使用量を最大70%削減する。
論文 参考訳(メタデータ) (2024-04-24T16:11:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - RelayAttention for Efficient Large Language Model Serving with Long
System Prompts [65.00227938792064]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意計算アルゴリズムにおいて、冗長なメモリアクセスが必要となる。
本稿では,DRAMから入力トークンのバッチに対して,これらの隠れ状態を正確に1回だけ読み取ることのできるアテンションアルゴリズムRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文 参考訳(メタデータ) (2023-06-08T08:37:49Z) - Graph Conditioned Sparse-Attention for Improved Source Code
Understanding [0.0]
本稿では,スパース自己認識機構の注目マスクとしてグラフ隣接行列を用いて,ソースコードスニペットをグラフのモダリティで条件付けすることを提案する。
提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。
論文 参考訳(メタデータ) (2021-12-01T17:21:55Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Time-aware Large Kernel Convolutions [41.19006428608901]
Time-Aware Large Kernel (TaLK) Convolutionsは、カーネルの総和の大きさを予測するために学習する新しい適応的畳み込み演算である。
提案手法は, 大規模標準機械翻訳, 抽象要約, 言語モデリングデータセットにおいて評価される。
論文 参考訳(メタデータ) (2020-02-08T15:30:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。