Fugu-MT 論文翻訳(概要): S$^{3}$: Increasing GPU Utilization during Generative Inference for Higher Throughput

論文の概要: S$^{3}$: Increasing GPU Utilization during Generative Inference for Higher Throughput

arxiv url: http://arxiv.org/abs/2306.06000v1
Date: Fri, 9 Jun 2023 16:13:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 12:28:58.838396
Title: S$^{3}$: Increasing GPU Utilization during Generative Inference for Higher Throughput
Title（参考訳）: S$^{3}$:高スループットのための生成推論におけるGPU利用の増加
Authors: Yunho Jin, Chun-Feng Wu, David Brooks, Gu-Yeon Wei
Abstract要約: 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。現在のLLMサービスフレームワークの1つは、完全なシーケンスを生成することを保証するために、KVキャッシュの最大シーケンス長を予約している。出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。
参考スコア（独自算出の注目度）: 8.460271675765314
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Generating texts with a large language model (LLM) consumes massive amounts of memory. Apart from the already-large model parameters, the key/value (KV) cache that holds information about previous tokens in a sequence can grow to be even larger than the model itself. This problem is exacerbated in one of the current LLM serving frameworks which reserves the maximum sequence length of memory for the KV cache to guarantee generating a complete sequence as they do not know the output sequence length. This restricts us to use a smaller batch size leading to lower GPU utilization and above all, lower throughput. We argue that designing a system with a priori knowledge of the output sequence can mitigate this problem. To this end, we propose S$^{3}$, which predicts the output sequence length, schedules generation queries based on the prediction to increase device resource utilization and throughput, and handle mispredictions. Our proposed method achieves 6.49$\times$ throughput over those systems that assume the worst case for the output sequence length.
Abstract（参考訳）: 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。すでに大きなモデルパラメータは別として、シーケンス内の以前のトークンに関する情報を保持するkey/value(kv)キャッシュは、モデル自体よりも大きくなる可能性がある。この問題は、kvキャッシュのメモリの最大シーケンス長を予約する現在のllmサービスフレームワークの1つで悪化し、出力シーケンス長が分かっていないため、完全なシーケンスを生成することを保証する。これにより、バッチサイズが小さくなり、GPU使用率が低下し、スループットが低下します。出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。この目的のために、出力シーケンス長を予測し、予測に基づいて生成クエリをスケジュールし、デバイスリソースの利用量とスループットを高め、誤予測を処理するS$^{3}$を提案する。提案手法は,出力シーケンス長が最悪の場合を想定したシステムに対して6.49$\times$スループットを実現する。

関連論文リスト

MOM: Memory-Efficient Offloaded Mini-Sequence Inference for Long Context Language Models [72.61076288351201]
メモリ効率の良いオフロードミニシーケンス推論(MOM)を提案する。 MOMは重要なレイヤを小さな“ミニシーケンス”に分割し、KVキャッシュのオフロードとシームレスに統合する。 Meta-Llama-3.2-8Bでは、単一のA100 80GB GPU上での最大コンテキスト長を155kから455kに拡張する。
論文参考訳（メタデータ） (2025-04-16T23:15:09Z)
Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference [4.497936996651617]
大規模言語モデルは様々なタスクに広く採用されているが、その自己回帰生成の性質は推論時に非効率な資源利用につながることが多い。本稿では,DRAM帯域幅飽和が主なボトルネックとなっているため,大容量の推論がメモリバウンドのままであることを示す。
論文参考訳（メタデータ） (2025-03-11T11:21:35Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [9.143856130336783]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。エージェントフレームワークは、同様のサブタスクを実行するマルチエージェントパイプラインや、アウトプットを反復的に拡張するセルフリファインメントループなど、反復的な推論要求を送信します。本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文参考訳（メタデータ） (2024-07-30T17:59:08Z)
Graph-Structured Speculative Decoding [52.94367724136063]
投機的復号化は、大規模言語モデルの推論を加速する有望な手法として登場した。本稿では, 有向非巡回グラフ(DAG)を応用して, 起案された仮説を管理する革新的な手法を提案する。我々は1.73$times$から1.96$times$に顕著なスピードアップを観察し、標準投機的復号法を大幅に上回った。
論文参考訳（メタデータ） (2024-07-23T06:21:24Z)
MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention [36.49445805074941]
Minference (Milliontokens Inference) は長周期処理の前処理を高速化するスパース計算法である。我々は,MInferenceが精度を維持しつつ,A100にプリフィルする際の推論遅延を最大10倍に効果的に低減できることを実証した。
論文参考訳（メタデータ） (2024-07-02T17:59:56Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。 HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。 HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文参考訳（メタデータ） (2024-06-14T08:32:45Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文参考訳（メタデータ） (2023-06-24T20:11:14Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Graph Conditioned Sparse-Attention for Improved Source Code Understanding [0.0]
本稿では,スパース自己認識機構の注目マスクとしてグラフ隣接行列を用いて,ソースコードスニペットをグラフのモダリティで条件付けすることを提案する。提案手法は,コード要約タスクにおけるBLEU, METEOR, ROUGE-Lの計測結果に到達し, 可変誤用タスクにおけるほぼ最先端の精度を示す。
論文参考訳（メタデータ） (2021-12-01T17:21:55Z)
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文参考訳（メタデータ） (2020-12-14T11:43:09Z)
Time-aware Large Kernel Convolutions [41.19006428608901]
Time-Aware Large Kernel (TaLK) Convolutionsは、カーネルの総和の大きさを予測するために学習する新しい適応的畳み込み演算である。提案手法は, 大規模標準機械翻訳, 抽象要約, 言語モデリングデータセットにおいて評価される。
論文参考訳（メタデータ） (2020-02-08T15:30:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。