論文の概要: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2601.17855v2
- Date: Sun, 01 Feb 2026 05:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.500062
- Title: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- Title(参考訳): 普遍的負荷分散原理とその大規模言語モデル実行への応用
- Authors: Zixi Chen, Tianci Bu, Chendong Song, Xin Lu, Yinyu Ye, Zijie Zhou,
- Abstract要約: 大規模言語モデル推論だけでは、これは1日1ギガワットの電力消費を意味する。
我々は,非移行状態のバリア同期システムに対して,普遍的な負荷分散原理を開発する。
結果として生じる省エネは、艦隊規模で近代的なハードウェアの52%を超える可能性がある。
- 参考スコア(独自算出の注目度): 12.668439908706604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over 40% of computational power in Large Language Model (LLM) serving systems can be systematically wasted - not from hardware limits, but from load imbalance in barrier-synchronized parallel processing. When progress is gated by the slowest worker at each step, heterogeneous and evolving workloads create persistent stragglers; faster workers idle while drawing power, producing nothing. In large language model inference alone, this translates to gigawatt-hours of wasted electricity daily. Here we develop a universal load-balancing principle for barrier-synchronized systems with non-migratable state. We prove worst-case theoretical guarantees: imbalance reduction grows with system scale, and the resulting energy savings can exceed 52% for modern hardware at fleet scale. Experiments corroborate the theory, demonstrating 28% energy reduction alongside substantial throughput and latency improvements. Formulated as an online integer optimization with provable guarantees, the principle extends beyond LLM serving to broad classes of barrier-synchronized parallel systems, establishing a theoretical foundation for sustainable high-performance computing.
- Abstract(参考訳): 大規模言語モデル(LLM)サービスシステムの40%以上の計算能力は、ハードウェアの限界からではなく、バリア同期並列処理における負荷不均衡から体系的に無駄にすることができる。
各ステップで最も遅いワーカーによって進捗が促進されると、異質で進化しているワークロードが永続的なストラグラーを生成します。
大規模言語モデル推論だけでは、これは1日1ギガワットの電力消費を意味する。
ここでは、移動不能な状態を持つバリア同期システムに対する普遍的負荷分散原理を開発する。
システムスケールで不均衡の低減が増加し、結果として生じる省エネは、艦隊スケールでモダンなハードウェアで52%を超える可能性がある。
実験は理論を裏付け、28%のエネルギー削減と大幅なスループットと遅延改善を実証した。
証明可能な保証を備えたオンライン整数最適化として評価され、この原理はLLMを超えてバリア同期並列システムの幅広いクラスに役立ち、持続可能な高性能コンピューティングの理論的基盤を確立している。
関連論文リスト
- Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文 参考訳(メタデータ) (2025-11-18T16:12:21Z) - FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning Mean-Field Control for Delayed Information Load Balancing in
Large Queuing Systems [26.405495663998828]
本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムについて考察する。
我々は、最適負荷分散ソリューションを見つけるためにポリシー勾配強化学習アルゴリズムを適用した。
我々のアプローチはスケーラブルだが、Join-the-Shortest-Queue (JSQ)の最先端のパワー・オブ・ド・バリアントと比較すると、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-09T13:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。