論文の概要: Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference
- arxiv url: http://arxiv.org/abs/2604.07472v1
- Date: Wed, 08 Apr 2026 18:11:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.498839
- Title: Fast Heterogeneous Serving: Scalable Mixed-Scale LLM Allocation for SLO-Constrained Inference
- Title(参考訳): 高速不均一サービング:SLO制約推論のためのスケーラブル混合LLMアロケーション
- Authors: Jiaming Cheng, Duong Tung Nguyen,
- Abstract要約: 大きな言語モデル(LLM)を大規模にデプロイするには、ベースモデルを共同で選択し、異種GPUをプロビジョニングし、負荷を厳格なレイテンシ、正確性、予算制約下で分散する必要がある。
本稿では,シングルパスアロケーションのためのGreedy Heuristic (GH) と,マルチスタート構築によるGH向上を実現するAdaptive Greedy Heuristic (AGH) と,リロケーションベースのローカルサーチ,GPU統合という2つの制約認識を提案する。
Azure LLM Trace (2025)を使用したワークロードでは、両方の推論が1秒未満で実現可能なソリューションを生成し、AGHは260倍以上の速度を達成すると同時に、最適なコストに近づいた。
- 参考スコア(独自算出の注目度): 5.05192206167203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying large language model (LLM) inference at scale requires jointly selecting base models, provisioning heterogeneous GPUs, configuring parallelism, and distributing workloads under tight latency, accuracy, and budget constraints. Exact mixed-integer linear programming (MILP) approaches guarantee optimality but scale poorly. We propose two constraint-aware heuristics: a Greedy Heuristic (GH) for single-pass allocation, and an Adaptive Greedy Heuristic (AGH) that enhances GH via multi-start construction, relocate-based local search, and GPU consolidation. Three constraint-aware mechanisms -- TP-aware feasibility selection, cost-per-effective-coverage ranking, and TP upgrade -- ensure feasibility under tightly coupled memory, delay, error, and budget constraints. On workloads calibrated with the Azure LLM Inference Trace (2025), both heuristics produce feasible solutions in under one second, with AGH closely approaching optimal cost while achieving over 260x speedup on large-scale instances. Under out-of-sample stress tests with up to 1.5x parameter inflation, AGH maintains controlled SLO violations and stable cost, whereas the exact solver's placement degrades sharply.
- Abstract(参考訳): 大きな言語モデル(LLM)を大規模にデプロイするには、ベースモデルの共同選択、異種GPUのプロビジョニング、並列性の設定、厳格なレイテンシ、正確性、予算制約下でのワークロードの分散が必要になります。
厳密な混合整数線形プログラミング (MILP) アプローチは最適性を保証するが、スケールが不十分である。
本稿では,単一パスアロケーションのためのGreedy Heuristic (GH) と,マルチスタート構築によるGH向上を実現するAdaptive Greedy Heuristic (AGH) の2つの制約付きヒューリスティックを提案する。
3つの制約対応メカニズム – TP対応の実現可能性選択,費用対効果ランキング,TPアップグレード – は,密結合メモリ,遅延,エラー,予算制約の下で実現可能性を保証する。
Azure LLM Inference Trace (2025)でキャリブレーションされたワークロードでは、両方のヒューリスティックが1秒未満で実現可能なソリューションを生成し、AGHは大規模インスタンスで260倍以上のスピードアップを実現しつつ、最適なコストに近づいた。
最大1.5倍のパラメータインフレーションを持つサンプル外応力試験では、AGHは制御されたSLO違反と安定したコストを維持している。
関連論文リスト
- Structure-Aware Commitment Reduction for Network-Constrained Unit Commitment with Solver-Preserving Guarantees [8.762061888571978]
本稿では,ネットワーク制約付きユニットコミットメントのためのデメンタリティ削減フレームワークを提案する。
最適化に先立って修正するコミットメント決定における構造的規則性を利用する。
IEEE 57-bus、73-bus、IEEE 118-bus、拡張された大規模ケースに対する実験は、分岐とバウンドノードの一貫性のある減少と解時間を示している。
論文 参考訳(メタデータ) (2026-04-03T06:55:32Z) - Structured Quantum Optimal Control under Bandwidth and Smoothness Constraints-An Inexact Proximal-ADMM Approach for Low-Complexity Pulse Synthesis [0.0]
ゲート不整合性,全変分正則化,明示的帯域制限射影,ボックス制約を1ループで組み合わせた非コンパクトなプロキシADMMフレームワークについて検討する。
GRAPE、標準のKrotov、L-BFGS-Bに対して、シングルキュービットの$X$ゲート、リークが発生しやすいクォートタスク、2キュービットのエンタングゲートでベンチマークされる。
コントリビューションは、直ちに展開可能な高忠実度ゲートへの完了ルートとしてではなく、制約パルス合成のための数値的枠組みとして読み取るべきである。
論文 参考訳(メタデータ) (2026-03-13T14:27:40Z) - Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices [37.04691997023527]
リソース制約のあるエッジデバイス上のLLMデプロイメントは、厳しいレイテンシ制約に直面している。
この研究は、不均一なハードウェア構成を探索し、LLMサブグラフの粗粒度パーティショニングをガイドする分析コストモデルを用いている。
このモデルは、投機サンプリングとヘテロジニアス実行が共同で有用であると予測し、ヘキサコアのCortex-A CPUとMali GPUを備えたエッジデバイスで検証する。
論文 参考訳(メタデータ) (2026-02-08T17:09:51Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - OTARo: Once Tuning for All Precisions toward Robust On-Device LLMs [21.55040910903597]
OTARoはデバイス上の大規模言語モデルで量子化精度を柔軟に切り替えることができる新しい手法である。
すべての精度で一貫して強固で堅牢なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-17T08:56:27Z) - Edge Collaborative Gaussian Splatting with Integrated Rendering and Communication [69.23838350582764]
エッジ協調(ECO-GS)では,各ユーザが小さなGSモデルに切り替えて忠実さを保証し,遠隔大GSモデルで忠実さを保証できる。
低コストのレンダリングステータスとエッジパワー割り当てを協調的に最適化する統合通信(IRAC)を提案する。
論文 参考訳(メタデータ) (2025-10-26T15:33:29Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。