論文の概要: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2601.17855v1
- Date: Sun, 25 Jan 2026 14:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.431892
- Title: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- Title(参考訳): 普遍的負荷分散原理とその大規模言語モデル実行への応用
- Authors: Zixi Chen, Tianci Bu, Chendong Song, Xin Lu, Yinyu Ye, Zijie Zhou,
- Abstract要約: バリア同期でステートフルなシステムで発生する負荷分散の厳密な状態について検討する。
我々は、ステップワイド有限水平整数最適化の定式化を許容する普遍的負荷分散原理を開発する。
実験により、スループットとレイテンシが大幅に改善され、エネルギー消費が削減された。
- 参考スコア(独自算出の注目度): 12.668439908706604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Load balancing-the allocation of work across parallel resources to reduce delay, energy and cost-is a pervasive challenge in science and engineering, from large-scale simulation and data processing to cloud and manufacturing operations. Motivated by the emerging bottleneck in large language model (LLM) serving, we study a particularly stringent regime of load balancing that arises in barrier-synchronized, stateful systems: work cannot be freely migrated and progress is gated by the slowest participant at each step, so heterogeneity and temporal drift in workloads create persistent stragglers and substantial idle time. LLM serving under data-parallel decoding provides a prominent modern instance: in production traces, barrier-induced idle can exceed 40% of compute time per decode step. Here we develop a universal load-balancing principle, which admits a step-wise finite-horizon integer-optimization formulation and yields worst-case guarantees: across LLM decode models and a broader class of non-decreasing workload drift processes, it reduces long-run imbalance by a factor that grows with batch size and system scale. Extensive experiments corroborate the theory, showing substantial improvements in throughput and latency together with reductions in energy consumption. These results provide a general, theoretically grounded framework for load balancing, with immediate implications for sustainable LLM serving and broad relevance to other synchronization-gated resource-allocation problems.
- Abstract(参考訳): ロードバランシング - 遅延、エネルギー、コストを削減するために、並列リソースにまたがる作業の割り当ては、大規模なシミュレーションやデータ処理からクラウドや製造オペレーションに至るまで、科学とエンジニアリングにおいて広範囲にわたる課題である。
大規模言語モデル(LLM)サービスにおけるボトルネックの台頭により、我々は、バリア同期でステートフルなシステムで発生する、特に厳しい負荷分散の体制について研究する: 作業は自由に移行できず、進行は各ステップで最も遅い参加者によって促進されるので、ワークロードの不均一性と時間的ドリフトは、永続的なストラグラーと実質的なアイドル時間を生成する。
運用トレースでは、バリア誘起アイドルはデコードステップ当たりの計算時間の40%を超えます。
本稿では,LLMデコードモデルとより広範な非遅延ワークロードドリフトプロセスのクラスにおいて,バッチサイズとシステムスケールで増大する要因によって長期不均衡を減少させるという,段階的に有限水平整数最適化の定式化を許容するユニバーサルロードバランシング原理を提案する。
大規模な実験は、この理論を裏付け、スループットと遅延を大幅に改善し、エネルギー消費を削減した。
これらの結果は、負荷分散の一般的な理論的基盤となるフレームワークを提供し、持続的LLMサービスへの即時的な影響と、他の同期化リソース割り当て問題との関連性を提供する。
関連論文リスト
- Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文 参考訳(メタデータ) (2025-11-18T16:12:21Z) - FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning Mean-Field Control for Delayed Information Load Balancing in
Large Queuing Systems [26.405495663998828]
本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムについて考察する。
我々は、最適負荷分散ソリューションを見つけるためにポリシー勾配強化学習アルゴリズムを適用した。
我々のアプローチはスケーラブルだが、Join-the-Shortest-Queue (JSQ)の最先端のパワー・オブ・ド・バリアントと比較すると、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-09T13:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。