論文の概要: KVDirect: Distributed Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2501.14743v1
- Date: Fri, 13 Dec 2024 21:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 22:53:28.690187
- Title: KVDirect: Distributed Disaggregated LLM Inference
- Title(参考訳): KVDirect:分散分散分解LDM推論
- Authors: Shiyang Chen, Rain Jiang, Dezhi Yu, Jinlai Xu, Mengyuan Chao, Fanlong Meng, Chenyu Jiang, Wei Xu, Hang Liu,
- Abstract要約: 大規模言語モデル(LLM)は多くの応用の新たな基盤となり、嵐のように人間の社会を形作る。
プリフィルとデコードステージを分離する分散推論は、ハードウェア利用とサービス品質を改善するための有望なアプローチである。
本稿ではKVキャッシュ転送を最適化したKVDirectを導入し,分散分散分散分散化LLM推論を実現する。
- 参考スコア(独自算出の注目度): 6.609725967999848
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have become the new foundation for many applications, reshaping human society like a storm. Disaggregated inference, which separates prefill and decode stages, is a promising approach to improving hardware utilization and service quality. However, due to inefficient inter-node communication, existing systems restrict disaggregated inference to a single node, limiting resource allocation flexibility and reducing service capacity. This paper introduces KVDirect, which optimizes KV cache transfer to enable a distributed disaggregated LLM inference. KVDirect achieves this through the following contributions. First, we propose a novel tensor-centric communication mechanism that reduces the synchronization overhead in traditional distributed GPU systems. Second, we design a custom communication library to support dynamic GPU resource scheduling and efficient KV cache transfer. Third, we introduce a pull-based KV cache transfer strategy that reduces GPU resource idling and improves latency. Finally, we implement KVDirect as an open-source LLM inference framework. Our evaluation demonstrates that KVDirect reduces per-request latency by 55% compared to the baseline across diverse workloads under the same resource constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの応用のための新しい基盤となり、嵐のように人間の社会を形作る。
プリフィルとデコードステージを分離する分散推論は、ハードウェア利用とサービス品質を改善するための有望なアプローチである。
しかし、非効率なノード間通信のため、既存のシステムは分散推論を単一ノードに制限し、リソース割り当ての柔軟性を制限し、サービスの容量を削減している。
本稿では,KVキャッシュ転送を最適化したKVDirectを導入し,分散分散分散分散化LLM推論を実現する。
KVDirectは以下のコントリビューションを通じてこれを達成している。
まず,従来の分散GPUシステムにおける同期オーバーヘッドを低減するためのテンソル中心通信機構を提案する。
第二に、動的GPUリソーススケジューリングと効率的なKVキャッシュ転送をサポートするカスタム通信ライブラリを設計する。
第3に、GPUリソースのアイドリングを低減し、レイテンシを改善するプルベースのKVキャッシュ転送戦略を導入する。
最後に,オープンソースのLLM推論フレームワークとしてKVDirectを実装した。
我々の評価では、同じリソース制約下での多様なワークロードのベースラインと比較して、KVDirectは要求毎のレイテンシを55%削減している。
関連論文リスト
- FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling [10.298476019491146]
Flow KVは非凝集型推論フレームワークである。
これにより、KVキャッシュの平均伝送遅延を0.944sから0.053sに96%削減できる。
これは、通常、計算の不均衡、極端な過負荷条件など、様々なシナリオでピークシステムのスループットを達成する。
論文 参考訳(メタデータ) (2025-04-03T08:58:05Z) - KVShare: Semantic-Aware Key-Value Cache Sharing for Efficient Large Language Model Inference [7.894452711850396]
KVShareは、セマンティックな類似性に基づくマルチユーザキーバリュー(KV)キャッシュ共有技術である。
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)の推論効率を向上させるように設計されている。
論文 参考訳(メタデータ) (2025-03-17T16:43:35Z) - A Universal Framework for Compressing Embeddings in CTR Prediction [68.27582084015044]
本稿では,事前学習した埋め込みを定量化することにより,埋め込みテーブルを圧縮するモデル非依存型埋め込み圧縮(MEC)フレームワークを提案する。
まず、高頻度特徴と低周波特徴のバランスをとるために、人気重み付け正規化を適用します。
3つのデータセットの実験により,提案手法はメモリ使用量を50倍以上削減し,レコメンデーション性能を維持・改善する。
論文 参考訳(メタデータ) (2025-02-21T10:12:34Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.155429544207827]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える新しいスケジューリングアルゴリズムを提案する。
我々の成果は、より持続的で費用対効果の高いLLMデプロイメントへの道筋を提供する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - UniAttn: Reducing Inference Costs via Softmax Unification for Post-Training LLMs [58.79414743733813]
大規模言語モデル(LLM)を現実世界のアプリケーションに適用するには、ポストトレーニングが不可欠である。
我々は,変圧器ブロック間でのソフトマックスのアクティベーションを統一し,推論コストを削減する新しいポストトレーニング手法であるtextbfAttetextbfntion (textbfUniAttn) における Softmax textbfUnification を提案する。
論文 参考訳(メタデータ) (2025-02-01T14:16:31Z) - PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。
モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文 参考訳(メタデータ) (2025-01-14T15:14:10Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Compute Or Load KV Cache? Why Not Both? [6.982874528357836]
Cakeは計算資源とI/Oリソースを並列に最適に利用する新しいKVキャッシュローディングシステムである。
Cakeは、計算のみの手法やI/Oのみの手法と比較して、TTFT(Time to First Token)の平均2.6倍の削減を実現している。
論文 参考訳(メタデータ) (2024-10-04T01:11:09Z) - LayerKV: Optimizing Large Language Model Serving with Layer-wise KV Cache Management [23.431794605498084]
ハードウェアの追加や出力性能の向上を必要とせずにTTFTを効果的に削減する,シンプルで効果的なプラグイン手法であるLayer KVを提案する。
レイヤKVは、システムメモリのきめ細かい制御のために、レイヤワイズなKVブロック割り当て、管理、オフロードを導入します。
様々なGPU構成の7Bから70Bパラメータを含む代表モデルの包括的な評価は、Layer KVがTTFTレイテンシを69倍に改善し、SLO違反率を28.7%削減することを示した。
論文 参考訳(メタデータ) (2024-10-01T06:23:17Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。