Fugu-MT 論文翻訳(概要): RAPID-Serve: Resource-efficient and Accelerated P/D Intra-GPU Disaggregation

論文の概要: RAPID-Serve: Resource-efficient and Accelerated P/D Intra-GPU Disaggregation

arxiv url: http://arxiv.org/abs/2601.11822v1
Date: Fri, 16 Jan 2026 22:58:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.334999
Title: RAPID-Serve: Resource-efficient and Accelerated P/D Intra-GPU Disaggregation
Title（参考訳）: RAPID-Serve:資源効率とP/D内GPU分散の高速化
Authors: Amna Masood, Pratishtha Gaur, Nuwan Jayasena,
Abstract要約: LLM推論サービスシステムに広く採用されている2つの技術は、ハイブリッドパーティショニングと分散サービスである。ハイブリッドバッチは、異なるリクエストのプリフィルとデコードトークンを同じバッチに組み合わせて、トークン毎のレイテンシの増加によるリソース利用とスループットの向上を実現する。これとは対照的に、リソースのアンダーユーティライゼーションとKV-cache転送オーバーヘッドを犠牲にして、サービスレベルの目的(SLO)を最適化するために、計算バウンドプリフィルと帯域幅バウンドデコードフェーズを分離する。
参考スコア（独自算出の注目度）: 0.605330409854044
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Two widely adopted techniques for LLM inference serving systems today are hybrid batching and disaggregated serving. A hybrid batch combines prefill and decode tokens of different requests in the same batch to improve resource utilization and throughput at the cost of increased latency per token. In contrast, disaggregated serving decouples compute-bound prefill and bandwidth-bound decode phases to optimize for service level objectives (SLOs) at the cost of resource under-utilization and KV-cache transfer overheads. To address the limitations of these techniques, we propose RAPID-Serve: a technique to concurrently execute prefill and decode on the same GPU(s) to meet latency SLOs while maintaining high throughput and efficient resource utilization. Furthermore, we propose Adaptive Resource Management for runtime compute resource allocation, optionally leveraging CU masking (a fine-grained Compute Unit partitioning feature on AMD Instinct\textsuperscript{TM} GPUs). RAPID-Serve provides up to 4.1x (average 1.7x) unconstrained throughput improvement and 32x and higher (average 4.9x) throughput improvement under SLO constraints, showing it as an effective strategy compared to the state-of-the-art approaches, particularly in resource-constrained environments.
Abstract（参考訳）: 現在、LLM推論サービスシステムに広く採用されている2つのテクニックは、ハイブリッドバッチリングと分散サービスである。ハイブリッドバッチは、異なるリクエストのプリフィルとデコードトークンを同じバッチに組み合わせて、トークン毎のレイテンシの増加によるリソース利用とスループットの向上を実現する。これとは対照的に、リソースのアンダーユーティライゼーションとKV-cache転送オーバーヘッドを犠牲にして、サービスレベルの目的(SLO)を最適化するために、計算バウンドプリフィルと帯域幅バウンドデコードフェーズを分離する。高いスループットと効率的な資源利用を維持しつつ、レイテンシSLOを満たすために、同じGPU上でプリフィルとデコードを同時に実行するRAPID-Serveを提案する。さらに、CUマスキング(AMD Instinct\textsuperscript{TM} GPU上での詳細なCompute Unitパーティショニング機能)を任意に活用する、実行時計算リソース割り当てのためのAdaptive Resource Managementを提案する。 RAPID-Serveは最大4.1x(平均1.7x)のスループット改善と32x以上(平均4.9x)のスループット改善を提供する。

関連論文リスト

Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
RLBoost: Harvesting Preemptible Resources for Cost-Efficient Reinforcement Learning on LLMs [48.94639777633359]
RLBoostは、プリエンプティブルGPUリソースを抽出するコスト効率のよいRLトレーニングのための体系的なソリューションである。 RLBoostはトレーニングのスループットを1.51x-1.97x向上し、オンデマンドGPUリソースのみを使用する場合に比べてコスト効率は28%-49%向上した。
論文参考訳（メタデータ） (2025-10-22T04:19:37Z)
xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文参考訳（メタデータ） (2025-10-16T13:53:47Z)
Beamforming and Resource Allocation for Delay Minimization in RIS-Assisted OFDM Systems [38.71413228444903]
本稿では、ダウンリンク再構成可能なインテリジェントサーフェス(RIS)支援OFDMシステムにおけるビームフォーミングと資源配分の問題について検討する。混合作用空間を効果的に処理し, 状態空間次元を低減するために, ハイブリッド深部強化学習(DRL)手法を提案する。提案アルゴリズムは, 平均遅延を著しく低減し, 資源配分効率を向上し, システムの堅牢性と公平性を向上する。
論文参考訳（メタデータ） (2025-06-04T05:33:33Z)
semi-PD: Towards Efficient LLM Serving via Phase-Wise Disaggregated Computation and Unified Storage [6.805644270436825]
本稿では,分散計算と統一ストレージを特徴とする,新たな大規模言語モデル (LLM) サービスシステムであるセミPDを提案する。最先端システムと比較して、セミPDはより高い要求レートでレイテンシを低く保ち、リクエスト毎の平均エンドツーエンドレイテンシを1.27-2.58倍削減する。
論文参考訳（メタデータ） (2025-04-28T15:00:03Z)
StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。 StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文参考訳（メタデータ） (2025-04-22T14:19:06Z)
Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。 Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文参考訳（メタデータ） (2025-04-10T06:51:23Z)
Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-21T07:46:01Z)
Joint Service Caching, Communication and Computing Resource Allocation in Collaborative MEC Systems: A DRL-based Two-timescale Approach [15.16859210403316]
端末の厳格なQuality of Service(QoS)要件を満たすため、Multi Access Edge Computing(MEC)システムに課題が課されている。エッジサーバ間のリソース共有を容易にする協調的なフレームワークを提案する。提案アルゴリズムは,平均スイッチングおよびキャッシュコストにおいて,ベースラインアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-07-19T00:27:49Z)
Efficient Parallel Split Learning over Resource-constrained Wireless Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2023-03-26T16:09:48Z)
Deep Learning-based Resource Allocation For Device-to-Device Communication [66.74874646973593]
デバイス間通信(D2D)を用いたマルチチャネルセルシステムにおいて,リソース割り当ての最適化のためのフレームワークを提案する。任意のチャネル条件に対する最適な資源配分戦略をディープニューラルネットワーク(DNN)モデルにより近似する深層学習(DL)フレームワークを提案する。シミュレーションの結果,提案手法のリアルタイム性能を低速で実現できることが確認された。
論文参考訳（メタデータ） (2020-11-25T14:19:23Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。