論文の概要: KVDirect: Distributed Disaggregated LLM Inference
- arxiv url: http://arxiv.org/abs/2501.14743v1
- Date: Fri, 13 Dec 2024 21:54:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-02 07:48:06.086310
- Title: KVDirect: Distributed Disaggregated LLM Inference
- Title(参考訳): KVDirect:分散分散分解LDM推論
- Authors: Shiyang Chen, Rain Jiang, Dezhi Yu, Jinlai Xu, Mengyuan Chao, Fanlong Meng, Chenyu Jiang, Wei Xu, Hang Liu,
- Abstract要約: 大規模言語モデル(LLM)は多くの応用の新たな基盤となり、嵐のように人間の社会を形作る。
プリフィルとデコードステージを分離する分散推論は、ハードウェア利用とサービス品質を改善するための有望なアプローチである。
本稿ではKVキャッシュ転送を最適化したKVDirectを導入し,分散分散分散分散化LLM推論を実現する。
- 参考スコア(独自算出の注目度): 6.609725967999848
- License:
- Abstract: Large Language Models (LLMs) have become the new foundation for many applications, reshaping human society like a storm. Disaggregated inference, which separates prefill and decode stages, is a promising approach to improving hardware utilization and service quality. However, due to inefficient inter-node communication, existing systems restrict disaggregated inference to a single node, limiting resource allocation flexibility and reducing service capacity. This paper introduces KVDirect, which optimizes KV cache transfer to enable a distributed disaggregated LLM inference. KVDirect achieves this through the following contributions. First, we propose a novel tensor-centric communication mechanism that reduces the synchronization overhead in traditional distributed GPU systems. Second, we design a custom communication library to support dynamic GPU resource scheduling and efficient KV cache transfer. Third, we introduce a pull-based KV cache transfer strategy that reduces GPU resource idling and improves latency. Finally, we implement KVDirect as an open-source LLM inference framework. Our evaluation demonstrates that KVDirect reduces per-request latency by 55% compared to the baseline across diverse workloads under the same resource constraints.
- Abstract(参考訳): 大規模言語モデル(LLM)は多くの応用のための新しい基盤となり、嵐のように人間の社会を形作る。
プリフィルとデコードステージを分離する分散推論は、ハードウェア利用とサービス品質を改善するための有望なアプローチである。
しかし、非効率なノード間通信のため、既存のシステムは分散推論を単一ノードに制限し、リソース割り当ての柔軟性を制限し、サービスの容量を削減している。
本稿では,KVキャッシュ転送を最適化したKVDirectを導入し,分散分散分散分散化LLM推論を実現する。
KVDirectは以下のコントリビューションを通じてこれを達成している。
まず,従来の分散GPUシステムにおける同期オーバーヘッドを低減するためのテンソル中心通信機構を提案する。
第二に、動的GPUリソーススケジューリングと効率的なKVキャッシュ転送をサポートするカスタム通信ライブラリを設計する。
第3に、GPUリソースのアイドリングを低減し、レイテンシを改善するプルベースのKVキャッシュ転送戦略を導入する。
最後に,オープンソースのLLM推論フレームワークとしてKVDirectを実装した。
我々の評価では、同じリソース制約下での多様なワークロードのベースラインと比較して、KVDirectは要求毎のレイテンシを55%削減している。
関連論文リスト
- Online Scheduling for LLM Inference with KV Cache Constraints [22.155429544207827]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える新しいスケジューリングアルゴリズムを提案する。
我々の成果は、より持続的で費用対効果の高いLLMデプロイメントへの道筋を提供する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - UniAttn: Reducing Inference Costs via Softmax Unification for Post-Training LLMs [58.79414743733813]
大規模言語モデル(LLM)を現実世界のアプリケーションに適用するには、ポストトレーニングが不可欠である。
我々は,変圧器ブロック間でのソフトマックスのアクティベーションを統一し,推論コストを削減する新しいポストトレーニング手法であるtextbfAttetextbfntion (textbfUniAttn) における Softmax textbfUnification を提案する。
論文 参考訳(メタデータ) (2025-02-01T14:16:31Z) - PRESERVE: Prefetching Model Weights and KV-Cache in Distributed LLM Serving [2.7309692684728613]
大規模言語モデル (LLMs) は様々なアプリケーションで広く使われているが、その相当な計算要求は大きな課題を生んでいる。
モデル重みに対するメモリリードとKVキャッシュを重畳してLLM推論を最適化する新しいプレフェッチフレームワークであるPreSERVEについて述べる。
論文 参考訳(メタデータ) (2025-01-14T15:14:10Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - Effectively Compress KV Heads for LLM [28.0801697946958]
キーバリュー(KV)キャッシュを圧縮する新しい手法を提案する。
提案手法は,従来のLLMに匹敵する性能を維持しつつ,KVヘッドの4分の1以上を圧縮することができる。
論文 参考訳(メタデータ) (2024-06-11T08:37:33Z) - Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression [87.5604418100301]
キー値(KV)キャッシングは,大規模言語モデルの推論を高速化する重要な手法である。
既存の手法はしばしば精度を損なうか、キャリブレーションのために余分なデータを必要とする。
テンソル分解法に基づく新しいデータフリー低ビット量子化手法である textbfDecoQuant を導入する。
論文 参考訳(メタデータ) (2024-05-21T08:35:10Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z) - Latency Optimization for Blockchain-Empowered Federated Learning in
Multi-Server Edge Computing [24.505675843652448]
本稿では,マルチサーバエッジコンピューティングにおけるフェデレーション学習(BFL)のための新しいレイテンシ最適化問題について検討する。
このシステムモデルでは、分散モバイルデバイス(MD)がエッジサーバ(ES)と通信し、機械学習(ML)モデルのトレーニングとブロックマイニングの両方を同時に処理する。
論文 参考訳(メタデータ) (2022-03-18T00:38:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。