論文の概要: Learning to Shard: RL for Co-optimizing the Parallelism Degrees and Per-operator Sharding Dimensions in Distributed LLM Inference
- arxiv url: http://arxiv.org/abs/2509.00217v1
- Date: Fri, 29 Aug 2025 20:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.131141
- Title: Learning to Shard: RL for Co-optimizing the Parallelism Degrees and Per-operator Sharding Dimensions in Distributed LLM Inference
- Title(参考訳): シャーディングの学習:分散LLM推論における並列性デグリーとオペレータごとのシャーディング次元の共最適化のためのRL
- Authors: Ruokai Yin, Sattwik Deb Mishra, Xuan Zuo, Hokchhay Tann, Preyas Shah, Apala Guha,
- Abstract要約: ラーニング・トゥ・サード (Learning to Shard) は、分散LLM推論のための粗粒度並列度と細粒度演算子ごとのシャーディング次元を共最適化する最初の RL ベースのアプローチである。
提案手法は,探索空間を効率的にナビゲートするために,高性能な戦略から学習したエリート履歴に対する注意に基づくポリシーを用いる。
- 参考スコア(独自算出の注目度): 2.583755114979923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed LLM inference requires careful coordination of parallelization strategies across hundreds to thousands of NPUs to meet production SLOs. Current systems like Megatron-LM rely on static heuristics that separately configure parallelism degrees and per-operator sharding dimensions, leaving significant performance on the table as models scale and hardware topologies diversify. We introduce Learn to Shard, to our knowledge, the first RL-based approach to co-optimize both coarse-grained parallelism degrees and fine-grained per-operator sharding dimensions for distributed LLM inference. Our method employs an attention-based policy over an elite history that learns from high-performing strategies to efficiently navigate the vast combinatorial search space. Evaluated on H100 clusters with MoE models up to 1.6T parameters, Learn to Shard achieves up to 3.5x throughput improvement over metaheuristic baselines and 1.06x over Megatron heuristics.
- Abstract(参考訳): 分散LLM推論では、数百から数千のNPU間で並列化戦略を慎重に調整する必要がある。
Megatron-LMのような現在のシステムは、並列性度と演算子ごとのシャーディング次元を別々に構成する静的ヒューリスティックに依存しており、モデルスケールとハードウェアトポロジが多様化するにつれて、テーブルに顕著な性能を残している。
我々は,Learning to Shardについて,分散LLM推論のための粗粒度並列度と粒度毎の粒度シャーディング次元を共最適化する最初のRLベースのアプローチを紹介した。
提案手法は,高度に優れた戦略から学習し,膨大な組合せ探索空間を効率的にナビゲートする,エリート履歴に対する注意に基づくポリシーを用いる。
最大1.6TパラメータのMoEモデルによるH100クラスタ上での評価では、Learning to Shardはメタヒューリスティックベースラインの3.5倍のスループット向上、メガトロンヒューリスティックスの1.06倍を実現している。
関連論文リスト
- Two-dimensional Sparse Parallelism for Large Scale Deep Learning Recommendation Model Training [9.47829333855806]
ディープラーニングレコメンデーションモデル(DLRM)では、スパース埋め込みテーブルはスパースカテゴリの特徴を管理する重要なコンポーネントである。
本稿では,スケーラビリティの課題を克服する新しい2次元スパース並列化手法を提案する。
提案手法は,モデル性能の同等性を保ちながら,トレーニング効率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-08-05T19:12:18Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - Omni-Thinker: Scaling Cross-Domain Generalization in LLMs via Multi-Task RL with Hybrid Rewards [50.21528417884747]
Omni-Thinkerは多種多様なタスクにわたる大規模言語モデル(LLM)の性能を向上させる統合強化学習フレームワークである。
我々の手法はタスクタイプを一貫した最適化を可能にし、RLベースのトレーニングを主観的ドメインに拡張する。
4つの領域にまたがる実験の結果、カリキュラムの学習は、ジョイントトレーニングよりも5.2%、モデルマージより9.1%向上していることがわかった。
論文 参考訳(メタデータ) (2025-07-20T01:50:16Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Alignment of large language models with constrained learning [93.2264691508005]
本研究では,制約付きアライメント問題に対する最適大言語モデル (LLM) ポリシーの計算問題について検討する。
我々はラグランジアン双対性を用いて、ラグランジアンによるポリシーの更新と双対降下による双対変数の更新を交互に交互に行う反復的双対ベースアライメント法を開発する。
論文 参考訳(メタデータ) (2025-05-26T01:04:56Z) - Seesaw: High-throughput LLM Inference via Model Re-sharding [8.840996987380484]
本稿ではスループット指向タスクに最適化された推論エンジンであるSeesawを紹介する。
Seesawの背景にある主要なアイデアは、並列化戦略の動的再構成を容易にする技術である動的モデル再シャーディングである。
論文 参考訳(メタデータ) (2025-03-09T04:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。