論文の概要: From Models to Operators: Rethinking Autoscaling Granularity for Large Generative Models
- arxiv url: http://arxiv.org/abs/2511.02248v1
- Date: Tue, 04 Nov 2025 04:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.810195
- Title: From Models to Operators: Rethinking Autoscaling Granularity for Large Generative Models
- Title(参考訳): モデルからオペレータへ:大規模生成モデルにおけるオートスケーリングの粒度再考
- Authors: Xingqi Cui, Chieh-Jan Mike Liang, Jiarong Xing, Haoran Qiu,
- Abstract要約: 既存のソリューションは静的プロビジョニングやモデルレベルのオートスケーリングに依存している。
この粗粒度の粗いリソース管理は、性能の低下や重要なリソース不使用につながる。
本稿では,より粒度の高いリソースを割り当てる演算子レベルのオートスケーリングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.720658518775265
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Serving large generative models such as LLMs and multi- modal transformers requires balancing user-facing SLOs (e.g., time-to-first-token, time-between-tokens) with provider goals of efficiency and cost reduction. Existing solutions rely on static provisioning or model-level autoscaling, both of which treat the model as a monolith. This coarse-grained resource management leads to degraded performance or significant resource underutilization due to poor adaptability to dynamic inference traffic that is common online. The root cause of this inefficiency lies in the internal structure of generative models: they are executed as graphs of interconnected operators. Through detailed characterization and systematic analysis, we find that operators are heterogeneous in their compute and memory footprints and exhibit diverse sensitivity to workload and resource factors such as batch size, sequence length, and traffic rate. This heterogeneity suggests that the operator, rather than the entire model, is the right granularity for scaling decisions. We propose an operator-level autoscaling framework, which allocates resources at finer (operator)-granularity, optimizing the scaling, batching, and placement based on individual operator profiles. Evaluated on production-scale traces, our approach preserves SLOs with up to 40% fewer GPUs and 35% less energy, or under fixed resources achieves 1.6x higher throughput with 5% less energy. These results show that the operator, rather than the model, is fundamentally a more effective unit for scaling large generative workloads.
- Abstract(参考訳): LLMやマルチモーダルトランスフォーマーのような大規模な生成モデルを実現するには、ユーザ対応のSLO(例えば、タイム・ツー・ファースト・ツーケン、タイム・バイ・ツー・ツーケン)と、効率性とコスト削減のプロバイダ目標とのバランスが必要となる。
既存のソリューションは静的プロビジョニングやモデルレベルのオートスケーリングに依存しており、どちらもモデルをモノリスとして扱う。
この粗粒度の粗いリソース管理は、オンラインの一般的な動的推論トラフィックへの適応性が低いため、性能の低下や重要なリソース不使用につながる。
この非効率性の根本原因は生成モデルの内部構造にある:それらは相互接続作用素のグラフとして実行される。
詳細な特徴解析と系統解析により,演算子は計算量やメモリフットプリントにおいて不均一であり,ワークロードやバッチサイズ,シーケンス長,トラフィックレートなどのリソース要因に対する多様な感度を示すことがわかった。
この不均一性は、オペレーターがモデル全体ではなく、決定をスケールするのに適切な粒度であることを示唆している。
本稿では,個々の演算子プロファイルに基づくスケーリング,バッチ,配置を最適化し,より細かい(演算子)粒度でリソースを割り当てる演算子レベルのオートスケーリングフレームワークを提案する。
実運用規模のトレースに基づいて評価し,SLOを最大40%のGPUと35%のエネルギーで保存する。
これらの結果は、オペレーターがモデルではなく、基本的に大規模な生成ワークロードをスケールする上で、より効果的なユニットであることを示している。
関連論文リスト
- The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - Compute-Optimal Scaling for Value-Based Deep RL [99.680827753493]
オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
論文 参考訳(メタデータ) (2025-08-20T17:54:21Z) - Optimizing Sequential Recommendation Models with Scaling Laws and Approximate Entropy [104.48511402784763]
SRモデルの性能法則は,モデルの性能とデータ品質の関係を理論的に調査し,モデル化することを目的としている。
データ品質を評価するために、従来のデータ量メトリクスと比較して、より曖昧なアプローチを示すために、近似エントロピー(ApEn)を提案する。
論文 参考訳(メタデータ) (2024-11-30T10:56:30Z) - Efficient Heterogeneous Large Language Model Decoding with Model-Attention Disaggregation [15.35494431928751]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著なパフォーマンスを示すと同時に、現実のサービスにおいて大きな課題をもたらす。
LLMデコーディングの効率を高めるために,モデルアテンションデアグリゲーションを導入する。
分散ヘテロジニアスクラスタにモデルアテンションデアグリゲーションを組み込んだLLM推論システムであるLaminaを開発し,展開する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - Efficient generative adversarial networks using linear additive-attention Transformers [0.8287206589886879]
本稿では,Ladaformer という線形アテンショントランスフォーマーブロックに基づく新しい GAN アーキテクチャを提案する。
LadaGANは、さまざまな解像度のベンチマークデータセットにおいて、既存の畳み込みGANとTransformer GANを一貫して上回る。
LadaGANは、最先端のマルチステップ生成モデルと比較して、競争性能を示している。
論文 参考訳(メタデータ) (2024-01-17T21:08:41Z) - A Generative Approach for Production-Aware Industrial Network Traffic
Modeling [70.46446906513677]
ドイツにあるTrumpf工場に配備されたレーザー切断機から発生するネットワークトラフィックデータについて検討した。
我々は、トラフィック統計を分析し、マシンの内部状態間の依存関係をキャプチャし、ネットワークトラフィックを生産状態依存プロセスとしてモデル化する。
可変オートエンコーダ(VAE)、条件付き可変オートエンコーダ(CVAE)、生成逆ネットワーク(GAN)など、様々な生成モデルの性能の比較を行った。
論文 参考訳(メタデータ) (2022-11-11T09:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。