論文の概要: AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models
- arxiv url: http://arxiv.org/abs/2508.18182v1
- Date: Mon, 25 Aug 2025 16:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.866527
- Title: AdLoCo: adaptive batching significantly improves communications efficiency and convergence for Large Language Models
- Title(参考訳): AdLoCo: 適応バッチ処理は大規模言語モデルの通信効率と収束性を著しく改善する
- Authors: Nikolay Kutuzov, Makar Baderko, Stepan Kulibaba, Artem Dzhalilov, Daniel Bobrov, Maxim Mashtaler, Alexander Gasnikov,
- Abstract要約: 本稿では,Multi-Instance Training(MIT),Adaptive Batched DiLoCo,スイッチモード機構を組み合わせた3段階の手法を提案する。
MITは個々のノードに対して、異なるモデルインスタンスを並列に複数の軽量なトレーニングストリームを実行することができる。
Adaptive Batched DiLoCoは、ローカルバッチサイズを動的に調整して、計算と通信のバランスをとる。
スイッチモードは、ハードウェアフレンドリな制限を超えて適応バッチサイズが大きくなると、グラデーションの蓄積をシームレスに導入する。
- 参考スコア(独自算出の注目度): 34.54482364155804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling distributed training of Large Language Models (LLMs) requires not only algorithmic advances but also efficient utilization of heterogeneous hardware resources. While existing methods such as DiLoCo have demonstrated promising results, they often fail to fully exploit computational clusters under dynamic workloads. To address this limitation, we propose a three-stage method that combines Multi-Instance Training (MIT), Adaptive Batched DiLoCo, and switch mode mechanism. MIT allows individual nodes to run multiple lightweight training streams with different model instances in parallel and merge them to combine knowledge, increasing throughput and reducing idle time. Adaptive Batched DiLoCo dynamically adjusts local batch sizes to balance computation and communication, substantially lowering synchronization delays. Switch mode further stabilizes training by seamlessly introducing gradient accumulation once adaptive batch sizes grow beyond hardware-friendly limits. Together, these innovations improve both convergence speed and system efficiency. We also provide a theoretical estimate of the number of communications required for the full convergence of a model trained using our method.
- Abstract(参考訳): 大規模言語モデル(LLM)の分散トレーニングのスケーリングには、アルゴリズムの進歩だけでなく、異種ハードウェアリソースの効率的な活用も必要である。
DiLoCoのような既存のメソッドは有望な結果を示しているが、動的ワークロード下で計算クラスタを完全に活用できないことが多い。
この制限に対処するために、マルチインスタンストレーニング(MIT)、適応バッチDiLoCo、スイッチモード機構を組み合わせた3段階の手法を提案する。
MITは個々のノードが、異なるモデルインスタンスで並列に複数の軽量トレーニングストリームを実行し、それらをマージして、知識を組み合わせてスループットを高め、アイドル時間を短縮することを可能にする。
Adaptive Batched DiLoCoは、ローカルバッチサイズを動的に調整して計算と通信のバランスを保ち、同期遅延を大幅に低減する。
スイッチモードは、適応的なバッチサイズがハードウェアフレンドリな制限を超えて大きくなると、グラデーションの蓄積をシームレスに導入することで、トレーニングをさらに安定化する。
これらのイノベーションは、収束速度とシステム効率の両方を改善する。
また,本手法を用いて訓練したモデルの完全収束に必要な通信数を理論的に推定する。
関連論文リスト
- NoLoCo: No-all-reduce Low Communication Training Method for Large Models [0.310688583550805]
大規模言語モデルのトレーニングは、一般的に数万のアクセラレータを含むクラスタ上で最適化手法によって行われる。
NoLoCoは、モデルウェイトをランダムに選択された他のウェイトと部分的に平均化することで、Nesterov運動量の新しい変種を介してモデルウェイトを暗黙的に同期させる。
提案手法は, 完全シャードデータ並列訓練や, 広範に使用されている低通信訓練であるDiLoCoよりも通信オーバーヘッドをはるかに少なくする。
論文 参考訳(メタデータ) (2025-06-12T17:23:23Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - One QuantLLM for ALL: Fine-tuning Quantized LLMs Once for Efficient Deployments [43.107261545706415]
大規模言語モデル(LLM)は急速に進歩しているが、かなりのメモリ需要に直面している。
現在の方法では、量子化損失によるパフォーマンス劣化を軽減するために、通常、長いトレーニングが必要です。
我々は、一度限りのフレームワークを大規模言語モデルに拡張する最初の試みを行っている。
論文 参考訳(メタデータ) (2024-05-30T16:05:15Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。