論文の概要: BestServe: Serving Strategies with Optimal Goodput in Collocation and Disaggregation Architectures
- arxiv url: http://arxiv.org/abs/2506.05871v1
- Date: Fri, 06 Jun 2025 08:40:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.384902
- Title: BestServe: Serving Strategies with Optimal Goodput in Collocation and Disaggregation Architectures
- Title(参考訳): BestServe: コロケーションとデアグリゲーションアーキテクチャにおける最適な成果で戦略を遂行する
- Authors: Xiannan Hu, Tianyou Zeng, Xiaoming Yuan, Liwei Song, Guangyuan Zhang, Bangzheng He,
- Abstract要約: BestServeは,様々な運用シナリオ下での実績を推定することで,サービス戦略のランク付けを行う新しいフレームワークである。
我々のフレームワークは、単一の標準CPU上で数分で最適な戦略を決定し、コストのかかるベンチマークを不要にします。
- 参考スコア(独自算出の注目度): 4.689663813519749
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Serving large language models (LLMs) to millions of users requires efficient resource allocation and parallelism strategies. It is a labor intensive trial-and-error process to find such a strategy. We present BestServe, a novel framework for ranking serving strategies by estimating goodput under various operating scenarios. Supporting both collocated and disaggregated architectures, BestServe leverages an inference simulator built on an adapted roofline model and CPU-GPU dispatch dynamics. Our framework determines the optimal strategy in minutes on a single standard CPU, eliminating the need for costly benchmarking, while achieving predictions within a $20\%$ error margin. It appeals to be practical for rapid deployment planning because of its lightweight design and strong extensibility.
- Abstract(参考訳): 大きな言語モデル(LLM)を数百万のユーザに渡すには、効率的なリソース割り当てと並列処理戦略が必要である。
このような戦略を見つけるのは、労働集約的な試行錯誤のプロセスである。
BestServeは,様々な運用シナリオ下での実績を推定することで,サービス戦略のランク付けを行う新しいフレームワークである。
BestServeは、配置されたルーフラインモデルとCPU-GPUディスパッチダイナミックス上に構築された推論シミュレータを利用する。
我々のフレームワークは、単一の標準CPU上で数分で最適な戦略を決定し、コストのかかるベンチマークの必要性をなくし、エラーマージンを20セントで予測する。
軽量な設計と強力な拡張性のために、迅速なデプロイメント計画に実用的であることをアピールする。
関連論文リスト
- Learning Virtual Machine Scheduling in Cloud Computing through Language Agents [22.314607581353638]
クラウドサービスでは、仮想マシン(VM)スケジューリングは典型的なオンライン動的多次元Bin Packing(ODMBP)問題である。
従来の手法はリアルタイムな変化に適応するのに苦労し、ドメイン専門家が設計したアプローチは厳格な戦略に苦しむ。
本稿では,ODMBPを解くための大規模言語モデル(LLM)駆動設計パラダイムを提供するMiCoという階層型言語エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T09:42:11Z) - ZeroLM: Data-Free Transformer Architecture Search for Language Models [54.83882149157548]
現在の自動プロキシ発見アプローチは、検索時間の拡張、データの過度なオーバーフィットへの感受性、構造的な複雑さに悩まされている。
本稿では,効率的な重み統計によるモデルキャパシティの定量化を目的とした,新しいゼロコストプロキシ手法を提案する。
本評価は,FlexiBERT ベンチマークで Spearman's rho 0.76 と Kendall's tau 0.53 を達成し,このアプローチの優位性を示すものである。
論文 参考訳(メタデータ) (2025-03-24T13:11:22Z) - Automatic Operator-level Parallelism Planning for Distributed Deep Learning -- A Mixed-Integer Programming Approach [6.449961842220686]
本稿では,最適性と計算効率のバランスをとる二段階のソリューションフレームワークを提案する。
我々のフレームワークは、同等または優れた性能を実現し、同じメモリ制約下で計算バブルを半分に減らします。
このような能力は、最適な並列化戦略を探求するための貴重な研究ツールであり、大規模なAIデプロイメントのための実践的な産業ソリューションである。
論文 参考訳(メタデータ) (2025-03-12T13:00:29Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [37.339567743948955]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。
我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。
我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T19:10:57Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。