論文の概要: BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching
- arxiv url: http://arxiv.org/abs/2411.16102v1
- Date: Mon, 25 Nov 2024 05:24:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:19:35.926527
- Title: BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching
- Title(参考訳): BlendServe: リソース認識バッチによる自動回帰型大規模モデルのオフライン推論の最適化
- Authors: Yilong Zhao, Shuo Yang, Kan Zhu, Lianmin Zheng, Baris Kasikci, Yang Zhou, Jiarong Xing, Ion Stoica,
- Abstract要約: レイテンシに敏感なアプリケーションでは、オフラインのバッチ推論が一般的になっています。
オフラインバッチ推論の資源利用を最大化するシステムであるBlendServeを提案する。
BlendServeは、広く使われている業界標準と比較して、最大で1.44倍のスループット向上を提供する。
- 参考スコア(独自算出の注目度): 28.13349943279609
- License:
- Abstract: Offline batch inference, which leverages the flexibility of request batching to achieve higher throughput and lower costs, is becoming more popular for latency-insensitive applications. Meanwhile, recent progress in model capability and modality makes requests more diverse in compute and memory demands, creating unique opportunities for throughput improvement by resource overlapping. However, a request schedule that maximizes resource overlapping can conflict with the schedule that maximizes prefix sharing, a widely-used performance optimization, causing sub-optimal inference throughput. We present BlendServe, a system that maximizes resource utilization of offline batch inference by combining the benefits of resource overlapping and prefix sharing using a resource-aware prefix tree. BlendServe exploits the relaxed latency requirements in offline batch inference to reorder and overlap requests with varied resource demands while ensuring high prefix sharing. We evaluate BlendServe on a variety of synthetic multi-modal workloads and show that it provides up to $1.44\times$ throughput boost compared to widely-used industry standards, vLLM and SGLang.
- Abstract(参考訳): スループットの向上とコスト削減のために,要求バッチの柔軟性を活用するオフラインバッチ推論は,レイテンシに敏感なアプリケーションでは一般的になりつつある。
一方、最近のモデル能力とモダリティの進歩により、要求は計算とメモリの要求においてより多様になり、リソース重複によるスループット改善のユニークな機会が生まれる。
しかし、リソース重複を最大化するリクエストスケジュールは、プレフィックス共有を最大化するスケジュールと矛盾する可能性がある。
BlendServeは、リソースオーバーラップとプレフィックス共有の利点を、リソース認識プレフィックスツリーを用いて組み合わせることで、オフラインバッチ推論のリソース利用を最大化するシステムである。
BlendServeは、オフラインバッチ推論における緩和されたレイテンシ要件を利用して、高いプレフィックス共有を確保しながら、さまざまなリソース要求でリクエストをリオーダーおよびオーバーラップする。
我々は、BlendServeを様々な合成マルチモーダルワークロードで評価し、広く使用されている業界標準であるvLLMやSGLangと比較して、最大1.44\times$のスループット向上を提供することを示した。
関連論文リスト
- Topology-aware Preemptive Scheduling for Co-located LLM Workloads [7.240168647854797]
我々は,ハイブリッドワークロードのスケジューリングのための微粒なトポロジ認識手法を開発した。
本手法は, プリエンプションの効率を大幅に向上し, LLMワークロードのスケジュール性能を55%向上させる。
論文 参考訳(メタデータ) (2024-11-18T13:26:09Z) - A Distributed Neural Linear Thompson Sampling Framework to Achieve URLLC
in Industrial IoT [16.167107624956294]
産業用IoT(Industrial Internet of Things)ネットワークは、重要なプロセスをサポートするために、ウルトラ信頼性の低い低レイテンシ通信(URLLC)を提供する。
無線リソースを割り当てるための標準プロトコルは、特にアップリンク通信において、レイテンシと信頼性のトレードオフを最適化しない可能性がある。
論文 参考訳(メタデータ) (2023-11-21T12:22:04Z) - Client Orchestration and Cost-Efficient Joint Optimization for
NOMA-Enabled Hierarchical Federated Learning [55.49099125128281]
半同期クラウドモデルアグリゲーションの下で非直交多重アクセス(NOMA)を実現するHFLシステムを提案する。
提案手法は,HFLの性能改善と総コスト削減に関するベンチマークよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-03T13:34:44Z) - Vision-based Semantic Communications for Metaverse Services: A Contest
Theoretic Approach [66.10465001046762]
Metaverseでは、アバターを更新し、ユーザの振る舞いを反映してレンダリングする必要がある。
ユーザとMPP間のインタラクションをモデル化する意味コミュニケーションフレームワークを提案する。
我々はセマンティック通信技術を用いて送信するデータの量を削減する。
論文 参考訳(メタデータ) (2023-08-15T07:56:33Z) - On Optimal Caching and Model Multiplexing for Large Model Inference [66.50550915522551]
大きな言語モデル(LLM)や他の大きな基盤モデルは注目すべき成功を収めているが、そのサイズは既存のリソース消費とレイテンシーの問題を悪化させている。
キャッシュを用いて以前のクエリを格納し、モデルの多重化を学習し、クエリ処理のためのモデルの集合から選択する。
論文 参考訳(メタデータ) (2023-06-03T05:01:51Z) - Dynamic Resource Allocation for Metaverse Applications with Deep
Reinforcement Learning [64.75603723249837]
そこで本研究では,Metaverse アプリケーション用の異なるタイプのリソースを動的に管理・割り当てする新しいフレームワークを提案する。
まず,アプリケーション間で共通関数を共有できるMetaInstancesという,アプリケーションをグループに分割する効果的なソリューションを提案する。
そこで我々は,要求到着プロセスとアプリケーション離脱プロセスのリアルタイム,動的,不確実な特性を捉えるために,セミマルコフ決定プロセスに基づくフレームワークを開発する。
論文 参考訳(メタデータ) (2023-02-27T00:30:01Z) - Optimization of Image Transmission in a Cooperative Semantic
Communication Networks [68.2233384648671]
画像伝送のためのセマンティック通信フレームワークを開発した。
サーバは、セマンティックコミュニケーション技術を用いて、画像の集合を協調的にユーザへ送信する。
抽出した意味情報と原画像との相関関係を測定するために,マルチモーダル・メトリックを提案する。
論文 参考訳(メタデータ) (2023-01-01T15:59:13Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - Deep Reinforcement Learning for Resource Constrained Multiclass
Scheduling in Wireless Networks [0.0]
セットアップでは、ランダムに到着するサービス要求に対応するために、利用可能な限られた帯域幅のリソースを割り当てます。
本稿では,Deep Setsと組み合わせた分布型Deep Deterministic Policy Gradient (DDPG)アルゴリズムを提案する。
提案アルゴリズムは, 合成データと実データの両方で検証し, 従来手法に対する一貫した利得を示す。
論文 参考訳(メタデータ) (2020-11-27T09:49:38Z) - The Best of Many Worlds: Dual Mirror Descent for Online Allocation
Problems [7.433931244705934]
本稿では,意思決定者に対して未知の入力モデルを用いて,各要求に対する報酬とリソース消費を生成するデータ駆動型設定について考察する。
様々な入力モデルにおいて,どの入力に直面するかを知ることなく,優れた性能が得られるアルゴリズムの一般クラスを設計する。
我々のアルゴリズムはラグランジアン双対空間で動作し、オンラインミラー降下を用いて更新される各リソースに対して双対乗算器を保持する。
論文 参考訳(メタデータ) (2020-11-18T18:39:17Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。