論文の概要: What happens when nanochat meets DiLoCo?
- arxiv url: http://arxiv.org/abs/2511.13761v1
- Date: Fri, 14 Nov 2025 10:30:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.689464
- Title: What happens when nanochat meets DiLoCo?
- Title(参考訳): ナノチャットがDiLoCoと出会うとどうなるのか?
- Authors: Alexander Acker, Soeren Becker, Sasho Nedelkoski, Dominik Scheinert, Odej Kao, Philipp Wiesner,
- Abstract要約: 我々は、トークン化、事前学習、微調整、サービスを含む8KラインのフルスタックChatGPTライクな実装であるオープンソースのnanochatプロジェクトを、制御ベースラインとして使用しています。
ナノチャットのトレーニングループ上での軽量ラッパーとしてDiLoCoアルゴリズムを実装し、外部ラッパーと同期する前にワーカー毎に複数のローカルステップを実行する。
ナノチャットは小型で検査可能であるため、制御パイプライン適応が可能であり、従来の集中型ベースラインと直接比較することができる。
- 参考スコア(独自算出の注目度): 37.547005474198265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although LLM training is typically centralized with high-bandwidth interconnects and large compute budgets, emerging methods target communication-constrained training in distributed environments. The model trade-offs introduced by this shift remain underexplored, and our goal is to study them. We use the open-source nanochat project, a compact 8K-line full-stack ChatGPT-like implementation containing tokenization, pretraining, fine-tuning, and serving, as a controlled baseline. We implement the DiLoCo algorithm as a lightweight wrapper over nanochat's training loop, performing multiple local steps per worker before synchronization with an outer optimizer, effectively reducing communication by orders of magnitude. This inner-outer training is compared against a standard data-parallel (DDP) setup. Because nanochat is small and inspectable, it enables controlled pipeline adaptations and allows direct comparison with the conventional centralized baseline. DiLoCo achieves stable convergence and competitive loss in pretraining but yields worse MMLU, GSM8K, and HumanEval scores after mid-training and SFT. We discover that using DiLoCo-pretrained weights and running mid- and post-training with DDP fails to recover performance, revealing irreversible representation drift from asynchronous updates that impairs downstream alignment. We provide this implementation as an official fork of nanochat on GitHub.
- Abstract(参考訳): LLMトレーニングは通常、高帯域の相互接続と大きな計算予算で集中しているが、新興手法は分散環境での通信制約のあるトレーニングをターゲットにしている。
この移行によって導入されたモデルトレードオフは、まだ未調査であり、その研究を目標としています。
我々は、トークン化、事前学習、微調整、サービスを含む8KラインのフルスタックChatGPTライクな実装であるオープンソースのnanochatプロジェクトを、制御ベースラインとして使用しています。
本研究では、ナノチャットのトレーニングループ上の軽量ラッパーとしてDiLoCoアルゴリズムを実装し、外部オプティマイザと同期する前にワーカー毎に複数のローカルステップを実行することにより、桁違いの通信を効果的に削減する。
この内外訓練は、標準データ並列(DDP)設定と比較される。
ナノチャットは小型で検査可能であるため、制御パイプライン適応が可能であり、従来の集中型ベースラインと直接比較することができる。
DiLoCoは事前トレーニングにおいて安定した収束と競争力の喪失を達成するが、中級トレーニングとSFT後のMMLU、GSM8K、HumanEvalスコアは悪化する。
DDPでDiLoCoを事前トレーニングしたウェイトと中・後トレーニングを併用しても性能が回復せず、下流のアライメントを損なう非同期更新から非可逆的な表現が漂うことが判明した。
私たちはこの実装を、GitHubでnanochatの公式フォークとして提供しています。
関連論文リスト
- DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster [7.597885871452736]
そこで我々は,低コミュニケーションの大規模分散クラスタトレーニングフレームワークであるDiLoCoXを提案する。
パイプライン並列性と、通信とローカルトレーニングのデュアルステップ遅延オーバーラップと、適応的なグラディエント圧縮スキームを組み合わせる。
本研究では,DiLoCoXがモデル収束の無視可能な劣化を維持しつつ,分散トレーニングにおいて357倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2025-06-26T13:45:04Z) - MuLoCo: Muon is a practical inner optimizer for DiLoCo [21.685500859998264]
DiLoCoは、ネットワーク制約下での大規模言語モデル(LLM)をトレーニングするための強力なフレームワークである。
本研究では,DiLoCoの通信オーバヘッドを低減するため,Top-kスペーシフィケーション量子化を含む圧縮手法の有効性を検討した。
実験の結果,DiLoCoの内部にMuonを用いることで,差分を2ビットに積極的に圧縮できることがわかった。
論文 参考訳(メタデータ) (2025-05-29T17:55:37Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LoCoDL: Communication-Efficient Distributed Learning with Local Training and Compression [56.01900711954956]
そこで我々はLoCoDL(LoCoDL)と,フロートの実次元ベクトルの代わりに短いビットストリームが送信される圧縮(Compression)という,ローカルトレーニングの一般的かつ効果的な2つの手法を利用する通信効率の高いアルゴリズムを紹介した。
LoCoDLは、局所的な訓練と圧縮の恩恵を受け、強い凸関数を持つ一般的な異種体制において、関数の条件数とモデル次元に関して、二重に加速された通信複雑性を享受する。
論文 参考訳(メタデータ) (2024-03-07T09:22:50Z) - Sparse Decentralized Federated Learning [35.32297764027417]
分散フェデレートラーニング(DFL)は、中央サーバーなしで協調的なモデルトレーニングを可能にするが、効率、安定性、信頼性の課題に直面している。
Sparse DFL (SDFL) に繋がる共有モデルに空間制約を導入し,新しいアルゴリズムCEPSを提案する。
数値実験により,高い信頼性を維持しつつ,コミュニケーションと効率を向上させるための提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2023-08-31T12:22:40Z) - $\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning [0.0]
このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。
我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。
我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
論文 参考訳(メタデータ) (2023-06-14T06:52:07Z) - Training Recommender Systems at Scale: Communication-Efficient Model and
Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。
DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。
最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文 参考訳(メタデータ) (2020-10-18T01:44:42Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - Domain-specific Communication Optimization for Distributed DNN Training [10.781867496460837]
本稿では,DNN訓練の通信オーバーヘッドをきめ細かな方法で最適化するために,ディープラーニングのドメイン固有性を利用した新しいソリューションDLCPを提案する。
これは、SGDベースのトレーニングの有界損失耐性を利用して、勾配圧縮によって純粋に回避できない尾の通信遅延を改善する。
その後、フローレベルのスケジューリングとは対照的に、粒度の細かいパケットレベルの優先順位付けとドロップを行い、グレードの層や大きさに基づいて、精度に影響を与えることなくモデル収束をさらに高速化する。
論文 参考訳(メタデータ) (2020-08-16T09:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。