論文の概要: Revisiting Parameter Server in LLM Post-Training
- arxiv url: http://arxiv.org/abs/2601.19362v1
- Date: Tue, 27 Jan 2026 08:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.254561
- Title: Revisiting Parameter Server in LLM Post-Training
- Title(参考訳): LLM後処理におけるパラメータサーバの再検討
- Authors: Xinyi Wan, Penghui Qi, Guangxing Huang, Chaoyi Ruan, Min Lin, Jialin Li,
- Abstract要約: 我々は、PSをFSDP(Fully Sharded Data Parallel)に適応させる textbf On-Demand Communication (ODC) を提案する。
FSDPと比較すると、ODCは同期障壁を1層1層から1層1層に縮小する。
ODCはデバイス利用とトレーニングのスループットを継続的に改善し、標準FSDPよりも最大36%のスピードアップを実現している。
- 参考スコア(独自算出の注目度): 16.048510673797523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern data parallel (DP) training favors collective communication over parameter servers (PS) for its simplicity and efficiency under balanced workloads. However, the balanced workload assumption no longer holds in large language model (LLM) post-training due to the high variance in sequence lengths. Under imbalanced workloads, collective communication creates synchronization barriers, leading to under-utilization of devices with smaller workloads. This change in training dynamics calls for a revisit of the PS paradigm for its robustness to such imbalance. We propose \textbf{On-Demand Communication (ODC)}, which adapts PS into Fully Sharded Data Parallel (FSDP) by replacing collective all-gather and reduce-scatter with direct point-to-point communication. Compared to FSDP, ODC reduces the synchronization barrier from once per layer to once per minibatch and decouples the workload on each device so that faster workers are not stalled. It also enables simpler and more effective load balancing at the minibatch level. Across diverse LLM post-training tasks, ODC consistently improves device utilization and training throughput, achieving up to a 36\% speedup over standard FSDP. These results demonstrate that ODC is a superior fit for the prevalent imbalanced workloads in LLM post-training. Our implementation of ODC and integration with FSDP is open-sourced at https://github.com/sail-sg/odc.
- Abstract(参考訳): 最新のデータ並列(DP)トレーニングは、バランスの取れたワークロード下での単純さと効率性のために、パラメータサーバ(PS)よりも集合的なコミュニケーションを好む。
しかし、バランスの取れたワークロードの仮定は、シーケンス長のばらつきが大きいため、大規模言語モデル(LLM)後のトレーニングではもはや成り立たない。
不均衡なワークロードの下では、集合的通信は同期障壁を生成し、より小さなワークロードを持つデバイスの低利用につながる。
このトレーニング力学の変化は、そのような不均衡に対する堅牢性のためにPSパラダイムの再検討を要求する。
そこで本研究では,PSをFSDP(Fully Sharded Data Parallel)に適応させ,全集合を置き換え,直接ポイント・ツー・ポイントの通信でスキャッタを削減できる「textbf{On-Demand Communication(ODC)」を提案する。
FSDPと比較して、ODCは同期障壁を1層毎に1層から1層に減らし、各デバイス上のワークロードを分離することで、より高速なワーカーが停止しないようにしている。
また、ミニバッチレベルでよりシンプルで効率的なロードバランシングを可能にする。
多様なLLMポストトレーニングタスク全体にわたって、ODCはデバイス使用率とトレーニングスループットを継続的に改善し、標準FSDPよりも最大36倍のスピードアップを実現している。
これらの結果から,LDM後トレーニングにおいて,ODCは一般的な不均衡ワークロードに適していることが示された。
ODCの実装とFSDPとの統合はhttps://github.com/sail-sg/odc.comで公開されています。
関連論文リスト
- CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning [23.24949857136035]
強化学習(RL)は、大規模言語モデル(LLM)の訓練において支配的なパラダイムとなっている。
本稿では,完全非同期RLシステムであるAReaLについて述べる。
論文 参考訳(メタデータ) (2025-05-30T07:18:25Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。
トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文 参考訳(メタデータ) (2023-07-16T05:28:59Z) - Boosting Distributed Machine Learning Training Through Loss-tolerant
Transmission Protocol [11.161913989794257]
分散機械学習(DML)システムは、データセンター(DC)とエッジノードにおけるモデルトレーニングのスピードを高めるために使用される。
PS通信アーキテクチャは、多対一の"インキャスト"トラフィックパターンが原因で、トレーニングスループットに悪影響を及ぼすという、非常に長いレイテンシに直面している。
textbfLoss-tolerant textbfTransmission textbfProcolは、同期中に勾配が部分的に失われ、不要な再送信を避ける。
textitEarly Closes the loss-tolerant threshold based on network conditions and textit
論文 参考訳(メタデータ) (2023-05-07T14:01:52Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。