論文の概要: Efficient LLM Serving on Hybrid Real-time and Best-effort Requests
- arxiv url: http://arxiv.org/abs/2504.09590v1
- Date: Sun, 13 Apr 2025 14:16:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:39.300766
- Title: Efficient LLM Serving on Hybrid Real-time and Best-effort Requests
- Title(参考訳): ハイブリッドリアルタイム・ベストプラクティス要求に基づくLLMの効率化
- Authors: Wan Borui, Zhao Juntao, Jiang Chenyu, Guo Chuanxiong, Wu Chuan,
- Abstract要約: BROSは、RT/BEリクエストをコロケーションし、BEリクエストのスループットを維持しながらRTリクエストのレイテンシ要求を満たすことを目的とした、ハイブリッド言語モデル(LLM)サービスシステムである。
RTリクエストのレイテンシ(最大74.20%)を大幅に削減し、サービスレベル目標(SLO)の達成率(最大36.38倍)を改善し、BEリクエストのスループットを低下させる。
- 参考スコア(独自算出の注目度): 0.6291443816903801
- License:
- Abstract: Recent breakthroughs in large Language Models (LLMs) have enabled various generative tasks on a single model. Real-world services (e.g., OpenAI's ChatGPT [27]) powered by an LLM often concurrently support latency-critical requests for interactive applications (e.g., question-answering systems, referred to as real-time or RT requests) and throughput-oriented requests for back-of-house processing (e.g., documents batch processing [28], referred to best-effort or BE requests), with complex hybrid inference workloads to the underlying model. State-of-the-art (SOTA) LLM serving systems dedicate machines to each type of request, towards either low inference latency or high serving throughput, respectively. This practice simplifies request scheduling and management but suffers from poor resource utilization. We propose BROS, a hybrid LLM serving system that aims to collocate RT/BE requests, meeting RT requests' latency requirements while maintaining BE requests' throughput. BROS formulates the problem of hybrid RT/BE request scheduling and solves it with a dynamic priority-based algorithm. BROS designs a bidirectional KV cache management mechanism, allowing RT requests to share KV memory with BE requests to remove the scheduling restrictions caused by insufficient KV memory and improve utilization. Extensive experiments validate that BROS achieves a good trade-off when serving hybrid RT and BE requests. It significantly reduces the latency of RT requests (up to 74.20%), improving their fine-grained service level objectives (SLOs) attainments (up to 36.38x), with negligible throughput reduction for BE requests, showing significant advantages over SOTA systems like vLLM and TGI.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)のブレークスルーにより、単一のモデル上で様々な生成タスクが可能になった。
LLMをベースとする実世界のサービス(例:OpenAIのChatGPT [27])は、対話型アプリケーション(例:リアルタイムまたはRTリクエストと呼ばれる質問応答システム)のレイテンシクリティカルな要求と、バック・オブ・ハウス処理(例:ドキュメントバッチ処理[28]、ベストプラクティスまたはBEリクエスト)のスループット指向の要求を同時にサポートします。
State-of-the-art (SOTA) LLMサービスシステムは、各タイプの要求に対して、それぞれ低い推論レイテンシまたは高いサービススループットにマシンを割り当てる。
このプラクティスは、リクエストのスケジューリングと管理を単純化するが、リソース利用の低さに悩まされる。
我々は,RT/BE要求を協調し,BE要求のスループットを維持しつつ,RT要求のレイテンシ要求を満たすことを目的としたハイブリッドLLMサービスシステムBROSを提案する。
BROSはハイブリッドRT/BE要求スケジューリングの問題を定式化し、動的優先度に基づくアルゴリズムで解決する。
BROSは双方向のKVキャッシュ管理機構を設計し、RTリクエストがKVメモリとBEリクエストを共有できるようにする。
広汎な実験により、BROSはハイブリッドRTとBEリクエストを提供するときに良好なトレードオフを達成することが検証された。
RTリクエストのレイテンシ(最大74.20%)を大幅に削減し、サービスレベル目標(SLO)の達成率(最大36.38倍)を向上し、BEリクエストのスループットを無視し、vLLMやTGIのようなSOTAシステムに対して大きな優位性を示す。
関連論文リスト
- KunServe: Elastic and Efficient Large Language Model Serving with Parameter-centric Memory Management [14.760434869268423]
大きな言語モデル(LLM)は、ロードバーストまたは長期要求下で、貴重なGPUメモリを簡単に絞り込むことができる。
KVCache中心のアプローチは、KVCacheのドロップ、マイグレーション、スワップによってロードスパイクを処理する。
本稿では,レプリケートされたパラメータを選択的に削除して,要求に貴重なメモリを残すパラメータ中心のアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-24T05:07:46Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - Diffusion-based Auction Mechanism for Efficient Resource Management in 6G-enabled Vehicular Metaverses [57.010829427434516]
6G対応のVehicular Metaversesでは、車両は物理的車両のデジタルレプリカとして機能するVT(Vine Twins)によって表現される。
VTタスクはリソース集約であり、高速処理のために地上基地局(BS)にオフロードする必要がある。
地上BSとUAV間の資源配分を最適化する学習型修正第2バイド(MSB)オークション機構を提案する。
論文 参考訳(メタデータ) (2024-11-01T04:34:54Z) - Fast Inference for Augmented Large Language Models [14.195265302357148]
Augmented Large Language Models (LLM)は、APIコールを通じて外部データソースを統合することで、スタンドアロンのLLMの機能を強化する。
SJF(Shortest Job First)のような従来のサイズベースのスケジューリングアルゴリズムは、完了時間の最小化にはあまり効果がない。
拡張LLMのための新しいLLM推論フレームワークであるLAMPSを提案する。
論文 参考訳(メタデータ) (2024-10-23T19:53:30Z) - Queue management for slo-oriented large language model serving [3.0134961904579094]
大規模言語モデル(LLM)サービスのためのキュー管理システムであるQLMを提案する。
QLMは、異なるモデルとSLOをまたいだバッチおよびインタラクティブなリクエストをリクエストキューで維持する。
リクエスト待ち時間(RWT)推定器を使用し、リクエストキューでのリクエスト待ち時間を推定する。
論文 参考訳(メタデータ) (2024-06-05T21:17:34Z) - RelayAttention for Efficient Large Language Model Serving with Long System Prompts [59.50256661158862]
本稿では,長いシステムプロンプトを含むLCMサービスの効率を向上させることを目的とする。
これらのシステムプロンプトの処理には、既存の因果注意アルゴリズムにおいて、大量のメモリアクセスが必要である。
本稿では,DRAMから入力トークンのバッチに対して,DRAMから隠れた状態を正確に1回読み取ることのできるアテンションアルゴリズムであるRelayAttentionを提案する。
論文 参考訳(メタデータ) (2024-02-22T18:58:28Z) - Guaranteed Dynamic Scheduling of Ultra-Reliable Low-Latency Traffic via
Conformal Prediction [72.59079526765487]
アップリンクにおける超信頼性・低遅延トラフィック(URLLC)の動的スケジューリングは、既存のサービスの効率を大幅に向上させることができる。
主な課題は、URLLCパケット生成のプロセスにおける不確実性である。
本稿では,URLLC トラフィック予測器の品質に関わらず,信頼性と遅延を保証した新しい URLLC パケットスケジューラを提案する。
論文 参考訳(メタデータ) (2023-02-15T14:09:55Z) - Optimization of Image Transmission in a Cooperative Semantic
Communication Networks [68.2233384648671]
画像伝送のためのセマンティック通信フレームワークを開発した。
サーバは、セマンティックコミュニケーション技術を用いて、画像の集合を協調的にユーザへ送信する。
抽出した意味情報と原画像との相関関係を測定するために,マルチモーダル・メトリックを提案する。
論文 参考訳(メタデータ) (2023-01-01T15:59:13Z) - ReAssigner: A Plug-and-Play Virtual Machine Scheduling Intensifier for
Heterogeneous Requests [14.521969014581728]
ヘテロジニアス要求に対する任意のスケジューラのスケジューリング効率を高めるために,Resource Assigner (Reer) と呼ばれる仮想マシンスケジューリング拡張器を提案する。
Reerは、いくつかの最先端のスケジューリング手法と比較して、大幅なスケジューリング性能の向上を実現している。
論文 参考訳(メタデータ) (2022-11-29T14:05:06Z) - Collaborative Intelligent Reflecting Surface Networks with Multi-Agent
Reinforcement Learning [63.83425382922157]
インテリジェント・リフレクション・サーフェス(IRS)は将来の無線ネットワークに広く応用されることが想定されている。
本稿では,エネルギー収穫能力を備えた協調型IRSデバイスを用いたマルチユーザ通信システムについて検討する。
論文 参考訳(メタデータ) (2022-03-26T20:37:14Z) - QoS-SLA-Aware Artificial Intelligence Adaptive Genetic Algorithm for
Multi-Request Offloading in Integrated Edge-Cloud Computing System for the
Internet of Vehicles [14.978000952939404]
IoT of Vehicles (IoV) over Vehicular Ad-hoc Networks (VANETS) は、スマートシティアプリケーションの開発を可能にする新興技術である。
車両の計算能力とストレージ能力の制限を考えると、アプリケーション要求は統合されたエッジクラウドコンピューティングシステムにオフロードされる。
本稿では、異種エッジクラウドコンピューティングシステムにおけるマルチリクエストオフロードのための新しいAI(AI)デッドラインSLA対応遺伝的アルゴリズム(GA)を提案する。
論文 参考訳(メタデータ) (2022-01-21T10:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。