論文の概要: RAPID-Serve: Resource-efficient and Accelerated P/D Intra-GPU Disaggregation
- arxiv url: http://arxiv.org/abs/2601.11822v1
- Date: Fri, 16 Jan 2026 22:58:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.334999
- Title: RAPID-Serve: Resource-efficient and Accelerated P/D Intra-GPU Disaggregation
- Title(参考訳): RAPID-Serve:資源効率とP/D内GPU分散の高速化
- Authors: Amna Masood, Pratishtha Gaur, Nuwan Jayasena,
- Abstract要約: LLM推論サービスシステムに広く採用されている2つの技術は、ハイブリッドパーティショニングと分散サービスである。
ハイブリッドバッチは、異なるリクエストのプリフィルとデコードトークンを同じバッチに組み合わせて、トークン毎のレイテンシの増加によるリソース利用とスループットの向上を実現する。
これとは対照的に、リソースのアンダーユーティライゼーションとKV-cache転送オーバーヘッドを犠牲にして、サービスレベルの目的(SLO)を最適化するために、計算バウンドプリフィルと帯域幅バウンドデコードフェーズを分離する。
- 参考スコア(独自算出の注目度): 0.605330409854044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two widely adopted techniques for LLM inference serving systems today are hybrid batching and disaggregated serving. A hybrid batch combines prefill and decode tokens of different requests in the same batch to improve resource utilization and throughput at the cost of increased latency per token. In contrast, disaggregated serving decouples compute-bound prefill and bandwidth-bound decode phases to optimize for service level objectives (SLOs) at the cost of resource under-utilization and KV-cache transfer overheads. To address the limitations of these techniques, we propose RAPID-Serve: a technique to concurrently execute prefill and decode on the same GPU(s) to meet latency SLOs while maintaining high throughput and efficient resource utilization. Furthermore, we propose Adaptive Resource Management for runtime compute resource allocation, optionally leveraging CU masking (a fine-grained Compute Unit partitioning feature on AMD Instinct\textsuperscript{TM} GPUs). RAPID-Serve provides up to 4.1x (average 1.7x) unconstrained throughput improvement and 32x and higher (average 4.9x) throughput improvement under SLO constraints, showing it as an effective strategy compared to the state-of-the-art approaches, particularly in resource-constrained environments.
- Abstract(参考訳): 現在、LLM推論サービスシステムに広く採用されている2つのテクニックは、ハイブリッドバッチリングと分散サービスである。
ハイブリッドバッチは、異なるリクエストのプリフィルとデコードトークンを同じバッチに組み合わせて、トークン毎のレイテンシの増加によるリソース利用とスループットの向上を実現する。
これとは対照的に、リソースのアンダーユーティライゼーションとKV-cache転送オーバーヘッドを犠牲にして、サービスレベルの目的(SLO)を最適化するために、計算バウンドプリフィルと帯域幅バウンドデコードフェーズを分離する。
高いスループットと効率的な資源利用を維持しつつ、レイテンシSLOを満たすために、同じGPU上でプリフィルとデコードを同時に実行するRAPID-Serveを提案する。
さらに、CUマスキング(AMD Instinct\textsuperscript{TM} GPU上での詳細なCompute Unitパーティショニング機能)を任意に活用する、実行時計算リソース割り当てのためのAdaptive Resource Managementを提案する。
RAPID-Serveは最大4.1x(平均1.7x)のスループット改善と32x以上(平均4.9x)のスループット改善を提供する。
関連論文リスト
- xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Beamforming and Resource Allocation for Delay Minimization in RIS-Assisted OFDM Systems [38.71413228444903]
本稿では、ダウンリンク再構成可能なインテリジェントサーフェス(RIS)支援OFDMシステムにおけるビームフォーミングと資源配分の問題について検討する。
混合作用空間を効果的に処理し, 状態空間次元を低減するために, ハイブリッド深部強化学習(DRL)手法を提案する。
提案アルゴリズムは, 平均遅延を著しく低減し, 資源配分効率を向上し, システムの堅牢性と公平性を向上する。
論文 参考訳(メタデータ) (2025-06-04T05:33:33Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。
現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。
本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-21T07:46:01Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。