論文の概要: MuLoCo: Muon is a practical inner optimizer for DiLoCo
- arxiv url: http://arxiv.org/abs/2505.23725v1
- Date: Thu, 29 May 2025 17:55:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.061257
- Title: MuLoCo: Muon is a practical inner optimizer for DiLoCo
- Title(参考訳): MuLoCo: Muon は DiLoCo の実用的な内部オプティマイザである
- Authors: Benjamin Thérien, Xiaolong Huang, Irina Rish, Eugene Belilovsky,
- Abstract要約: DiLoCoは、ネットワーク制約下での大規模言語モデル(LLM)をトレーニングするための強力なフレームワークである。
本研究では,DiLoCoの通信オーバヘッドを低減するため,Top-kスペーシフィケーション量子化を含む圧縮手法の有効性を検討した。
実験の結果,DiLoCoの内部にMuonを用いることで,差分を2ビットに積極的に圧縮できることがわかった。
- 参考スコア(独自算出の注目度): 21.685500859998264
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: DiLoCo is a powerful framework for training large language models (LLMs) under networking constraints with advantages for increasing parallelism and accelerator utilization in data center settings. Despite significantly reducing communication frequency, however, DiLoCo's communication steps still involve all-reducing a complete copy of the model's parameters. While existing works have explored ways to reduce communication in DiLoCo, the role of error feedback accumulators and the effect of the inner-optimizer on compressibility remain under-explored. In this work, we investigate the effectiveness of standard compression methods including Top-k sparsification and quantization for reducing the communication overhead of DiLoCo when paired with two local optimizers (AdamW and Muon). Our experiments pre-training decoder-only transformer language models (LMs) reveal that leveraging Muon as the inner optimizer for DiLoCo along with an error-feedback accumulator allows to aggressively compress the communicated delta to 2-bits with next to no performance degradation. Crucially, MuLoCo (Muon inner optimizer DiLoCo) significantly outperforms DiLoCo while communicating 8X less and having identical memory complexity.
- Abstract(参考訳): DiLoCoは,大規模言語モデル(LLM)をネットワーク制約下でトレーニングするための強力なフレームワークである。
しかし、DiLoCoの通信手順は、通信周波数を大幅に削減したにもかかわらず、モデルのパラメータの完全なコピーを全て削除する。
既存の研究は、DiLoCoでの通信を減らす方法を模索してきたが、誤差フィードバックアキュミュレータの役割と圧縮性に対する内部最適化器の影響は、まだ未解明のままである。
本研究では,2つのローカルオプティマイザ (AdamW と Muon ) と組み合わせることで,DiLoCo の通信オーバーヘッドを低減するため,Top-kスペーサ化や量子化などの標準圧縮手法の有効性を検討する。
デコーダのみのトランスフォーマー言語モデル (LM) の事前学習実験により,Muon を DiLoCo の内部オプティマイザとして活用し,エラーフィードバックアキュムレータを組み込むことで,通信されたデルタを2ビットに積極的に圧縮できることがわかった。
重要なことに、MuLoCo(Muon内部オプティマイザDiLoCo)は、DiLoCoよりも8倍少なく通信でき、メモリの複雑さが同じである。
関連論文リスト
- ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。
ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文 参考訳(メタデータ) (2025-03-10T03:15:54Z) - Ferret: Federated Full-Parameter Tuning at Scale for Large Language Models [54.02863371927658]
大規模言語モデル(LLM)は多くの現実世界のアプリケーションで必須となっている。
フェレットは、ランダム性を共有する最初の一階法である。
高い計算効率、通信オーバーヘッドの低減、高速収束を実現している。
論文 参考訳(メタデータ) (2024-09-10T07:28:13Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - FedComLoc: Communication-Efficient Distributed Training of Sparse and Quantized Models [56.21666819468249]
フェデレートラーニング(FL)は、異種クライアントがローカルにプライベートデータを処理し、中央サーバーと対話できるというユニークな特徴から、注目を集めている。
我々は,emphScaffnewに実用的で効果的な圧縮を統合し,通信効率を向上するFedComLocを紹介した。
論文 参考訳(メタデータ) (2024-03-14T22:29:59Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - DiLoCo: Distributed Low-Communication Training of Language Models [32.15083548875492]
大規模言語モデル(LLM)は、機械学習の多くのアプリケーションにおいて重要なコンポーネントである。
LLMのトレーニングのための標準的なアプローチは、多数の相互接続されたアクセラレータを必要とする。
本研究では,低接続のデバイス上での言語モデルのトレーニングを可能にする分散最適化アルゴリズムDiLoCoを提案する。
論文 参考訳(メタデータ) (2023-11-14T12:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。