論文の概要: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- arxiv url: http://arxiv.org/abs/2601.17855v1
- Date: Sun, 25 Jan 2026 14:27:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.431892
- Title: A Universal Load Balancing Principle and Its Application to Large Language Model Serving
- Title(参考訳): 普遍的負荷分散原理とその大規模言語モデル実行への応用
- Authors: Zixi Chen, Tianci Bu, Chendong Song, Xin Lu, Yinyu Ye, Zijie Zhou,
- Abstract要約: バリア同期でステートフルなシステムで発生する負荷分散の厳密な状態について検討する。
我々は、ステップワイド有限水平整数最適化の定式化を許容する普遍的負荷分散原理を開発する。
実験により、スループットとレイテンシが大幅に改善され、エネルギー消費が削減された。
- 参考スコア(独自算出の注目度): 12.668439908706604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Load balancing-the allocation of work across parallel resources to reduce delay, energy and cost-is a pervasive challenge in science and engineering, from large-scale simulation and data processing to cloud and manufacturing operations. Motivated by the emerging bottleneck in large language model (LLM) serving, we study a particularly stringent regime of load balancing that arises in barrier-synchronized, stateful systems: work cannot be freely migrated and progress is gated by the slowest participant at each step, so heterogeneity and temporal drift in workloads create persistent stragglers and substantial idle time. LLM serving under data-parallel decoding provides a prominent modern instance: in production traces, barrier-induced idle can exceed 40% of compute time per decode step. Here we develop a universal load-balancing principle, which admits a step-wise finite-horizon integer-optimization formulation and yields worst-case guarantees: across LLM decode models and a broader class of non-decreasing workload drift processes, it reduces long-run imbalance by a factor that grows with batch size and system scale. Extensive experiments corroborate the theory, showing substantial improvements in throughput and latency together with reductions in energy consumption. These results provide a general, theoretically grounded framework for load balancing, with immediate implications for sustainable LLM serving and broad relevance to other synchronization-gated resource-allocation problems.
- Abstract(参考訳): ロードバランシング - 遅延、エネルギー、コストを削減するために、並列リソースにまたがる作業の割り当ては、大規模なシミュレーションやデータ処理からクラウドや製造オペレーションに至るまで、科学とエンジニアリングにおいて広範囲にわたる課題である。
大規模言語モデル(LLM)サービスにおけるボトルネックの台頭により、我々は、バリア同期でステートフルなシステムで発生する、特に厳しい負荷分散の体制について研究する: 作業は自由に移行できず、進行は各ステップで最も遅い参加者によって促進されるので、ワークロードの不均一性と時間的ドリフトは、永続的なストラグラーと実質的なアイドル時間を生成する。
運用トレースでは、バリア誘起アイドルはデコードステップ当たりの計算時間の40%を超えます。
本稿では,LLMデコードモデルとより広範な非遅延ワークロードドリフトプロセスのクラスにおいて,バッチサイズとシステムスケールで増大する要因によって長期不均衡を減少させるという,段階的に有限水平整数最適化の定式化を許容するユニバーサルロードバランシング原理を提案する。
大規模な実験は、この理論を裏付け、スループットと遅延を大幅に改善し、エネルギー消費を削減した。
これらの結果は、負荷分散の一般的な理論的基盤となるフレームワークを提供し、持続的LLMサービスへの即時的な影響と、他の同期化リソース割り当て問題との関連性を提供する。
関連論文リスト
- HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network [50.33808558714122]
エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
論文 参考訳(メタデータ) (2026-01-16T07:37:23Z) - RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - GANGR: GAN-Assisted Scalable and Efficient Global Routing Parallelization [0.6117371161379208]
グローバルルーティングは電子設計自動化(EDA)における重要な段階である
本稿では,より効率的な並列化を実現するために,WGAN(Wasserstein Generative Network)を提案する。
提案アルゴリズムは最新のISPD'24コンテストのベンチマークでテストされ、最先端ルータと比較して、ルーティング品質は0.002%しか低下せず、40%の低下を示した。
論文 参考訳(メタデータ) (2025-11-21T00:32:33Z) - Heterogeneous Multi-Agent Proximal Policy Optimization for Power Distribution System Restoration [4.46185759083096]
本稿では, 相互接続したマイクログリッド間の協調修復を実現するために, 不均一・エージェント強化学習フレームワークを適用した。
その結果、HARLフレームワークにマイクログリッドレベルの不均一性を組み込むことで、複雑なPSD修復のためのスケーラブルで安定で制約対応のソリューションが得られることが示された。
論文 参考訳(メタデータ) (2025-11-18T18:23:35Z) - Seer: Online Context Learning for Fast Synchronous LLM Reinforcement Learning [6.742598086990326]
強化学習(RL)は、現代の大規模言語モデル(LLM)の進展に欠かせないものとなっているが、既存の同期RLシステムは、重大なパフォーマンスボトルネックに直面している。
従来見過ごされていた出力長と生成パターンの類似性を利用して,同じプロンプトを共有することで,これらの課題に対処する新しいオンラインコンテキスト学習システムであるSeerを提案する。
Seer氏は、動的ロードバランシングのための分割ロールアウト、コンテキスト対応スケジューリング、適応的なグループ化された投機的デコーディングの3つの主要なテクニックを紹介している。
論文 参考訳(メタデータ) (2025-11-18T16:12:21Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - FairBatching: Fairness-Aware Batch Formation for LLM Inference [2.0917668141703207]
この研究は、この不公平の根本原因を特定する:時-時-時-(TBT)の非単調性
本稿では,タスクの充足と復号のリソース割り当てを公平に行う新しいシステムであるFair the Prioritizingを提案する。
論文 参考訳(メタデータ) (2025-10-16T07:43:56Z) - Laminar: A Scalable Asynchronous RL Post-Training Framework [20.127034898123508]
RL軌道生成における長い尾の歪みは、重いGPU不使用を引き起こす。
現在のRLシステムはアクターとロールアウト間のグローバルな重量同期に依存しており、厳密なモデル更新スケジュールを生成する。
完全に分離されたアーキテクチャ上に構築されたスケーラブルで堅牢なRLポストトレーニングシステムであるLaminarを提案する。
論文 参考訳(メタデータ) (2025-10-14T15:29:14Z) - PowerGrow: Feasible Co-Growth of Structures and Dynamics for Power Grid Synthesis [75.14189839277928]
本稿では,運用効率を維持しながら計算オーバーヘッドを大幅に削減する,共同生成フレームワークPowerGrowを提案する。
ベンチマーク設定による実験では、PowerGrowはフィデリティと多様性において、事前の拡散モデルよりも優れていた。
これは、運用上有効で現実的な電力グリッドシナリオを生成する能力を示している。
論文 参考訳(メタデータ) (2025-08-29T01:47:27Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z) - AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training [24.60677187852425]
強化学習(RL)は、大規模言語モデル(LLM)の訓練後の段階において重要な技術となっている。
従来のタスクコロケーションのRLフレームワークは、大きなスケーラビリティのボトルネックに悩まされている。
タスク分離RLフレームワークは、複雑なデータフローとそれに対応するリソースアイドリングとワークロードの不均衡の課題に直面します。
本稿では,非同期ストリーミングRLフレームワークであるAsyncFlowを提案する。
論文 参考訳(メタデータ) (2025-07-02T12:45:34Z) - StreamRL: Scalable, Heterogeneous, and Elastic RL for LLMs with Disaggregated Stream Generation [55.75008325187133]
強化学習(RL)は,大規模言語モデル(LLM)の学習後のコアとなる。
StreamRLは、最初の原則から分離して、2種類のパフォーマンスボトルネックに対処するように設計されている。
実験により、StreamRLは既存の最先端システムと比較してスループットを最大2.66倍改善することが示された。
論文 参考訳(メタデータ) (2025-04-22T14:19:06Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Learning Mean-Field Control for Delayed Information Load Balancing in
Large Queuing Systems [26.405495663998828]
本研究では,多くのクライアント(ロードバランサ)と多数の並列キューで構成される遅延情報を備えたマルチエージェントロードバランシングシステムについて考察する。
我々は、最適負荷分散ソリューションを見つけるためにポリシー勾配強化学習アルゴリズムを適用した。
我々のアプローチはスケーラブルだが、Join-the-Shortest-Queue (JSQ)の最先端のパワー・オブ・ド・バリアントと比較すると、優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-09T13:47:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。