論文の概要: Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs
- arxiv url: http://arxiv.org/abs/2512.17131v1
- Date: Thu, 18 Dec 2025 23:59:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.203585
- Title: Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs
- Title(参考訳): LLMの高速トレーニングのためのプリマル平均化によるDiLoCoの平滑化
- Authors: Aaron Defazio, Konstantin Mishchenko, Parameswaran Raman, Hao-Jun Michael Shi, Lin Xiao,
- Abstract要約: Generalized Primal Averaging (GPA)は、Nesterovのプライマリ平均化法の拡張である。
GPAは、Nesterovの一次平均化定式化において定数を分離することで制限を克服する。
Llama-160Mモデルでは、GPAはベースライン(AdamW)のバリデーション損失に到達するためのステップで24.22%のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 23.139573772811513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Generalized Primal Averaging (GPA), an extension of Nesterov's method in its primal averaging formulation that addresses key limitations of recent averaging-based optimizers such as single-worker DiLoCo and Schedule-Free (SF) in the non-distributed setting. These two recent algorithmic approaches improve the performance of base optimizers, such as AdamW, through different iterate averaging strategies. Schedule-Free explicitly maintains a uniform average of past weights, while single-worker DiLoCo performs implicit averaging by periodically aggregating trajectories, called pseudo-gradients, to update the model parameters. However, single-worker DiLoCo's periodic averaging introduces a two-loop structure, increasing its memory requirements and number of hyperparameters. GPA overcomes these limitations by decoupling the interpolation constant in the primal averaging formulation of Nesterov. This decoupling enables GPA to smoothly average iterates at every step, generalizing and improving upon single-worker DiLoCo. Empirically, GPA consistently outperforms single-worker DiLoCo while removing the two-loop structure, simplifying hyperparameter tuning, and reducing its memory overhead to a single additional buffer. On the Llama-160M model, GPA provides a 24.22% speedup in terms of steps to reach the baseline (AdamW's) validation loss. Likewise, GPA achieves speedups of 12% and 27% on small and large batch setups, respectively, to attain AdamW's validation accuracy on the ImageNet ViT workload. Furthermore, we prove that for any base optimizer with regret bounded by $O(\sqrt{T})$, where $T$ is the number of iterations, GPA can match or exceed the convergence guarantee of the original optimizer, depending on the choice of interpolation constants.
- Abstract(参考訳): 本稿では,Nesterov の手法の拡張である Generalized Primal Averaging (GPA) を提案する。
これら2つのアルゴリズム的アプローチは、異なる反復平均化戦略により、AdamWのようなベースオプティマイザの性能を改善する。
Schedule-Freeは過去の重量の均一な平均を明示的に維持する一方、シングルワーカーのDiLoCoは、疑似階調と呼ばれる軌道を周期的に集約して暗黙的な平均化を行い、モデルパラメータを更新する。
しかし、シングルワーカーのDiLoCoの周期的平均化は2ループ構造を導入し、メモリ要求とハイパーパラメータの数を増やした。
GPAは、Nesterovの一次平均化定式化において、補間定数を分解することでこれらの制限を克服する。
このデカップリングにより、GPAは各ステップでスムーズに平均的なイテレーションを実行でき、シングルワーカーのDiLoCoを一般化し、改善することができる。
GPAは、2ループ構造を取り除き、ハイパーパラメータチューニングを簡素化し、メモリオーバーヘッドを1つの追加バッファに減らしながら、シングルワーカのDiLoCoを一貫して上回っている。
Llama-160Mモデルでは、GPAはベースライン(AdamW)のバリデーション損失に到達するためのステップで24.22%のスピードアップを提供する。
同様に、GPAは、ImageNet ViTのワークロードにおけるAdamWの検証精度を達成するために、それぞれ小さなバッチと大きなバッチのセットアップで12%と27%のスピードアップを達成する。
さらに、残差が$O(\sqrt{T})$で有界な任意の基底オプティマイザに対して、$T$は反復数であり、GPAは補間定数の選択に応じて元のオプティマイザの収束保証を一致または超えることを証明している。
関連論文リスト
- Closing the Approximation Gap of Partial AUC Optimization: A Tale of Two Formulations [121.39938773554523]
ROC曲線の下の領域(AUC)は、クラス不均衡と決定制約の両方を持つ実世界のシナリオにおける重要な評価指標である。
PAUC最適化の近似ギャップを埋めるために,2つの簡単なインスタンス単位のミニマックス修正を提案する。
得られたアルゴリズムは、サンプルサイズと典型的な一方方向と双方向のPAUCに対して$O(-2/3)$の収束率の線形パーイテレーション計算複雑性を享受する。
論文 参考訳(メタデータ) (2025-12-01T02:52:33Z) - Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - VAMO: Efficient Zeroth-Order Variance Reduction for SGD with Faster Convergence [6.574641780732972]
大規模非問題はディープラーニングでは一般的である。
ファーストオーダー(FO)は今日のベースラインとして機能する。
ZOアルゴリズムは計算量とメモリコストを減らす。
VAMOは、より少ない動的メモリ要求でこれらのゲインを達成する。
論文 参考訳(メタデータ) (2025-05-20T05:31:15Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - MGDA Converges under Generalized Smoothness, Provably [27.87166415148172]
多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。
最近の研究は、理論解析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothあるいは有界勾配仮定によって制限されている。
一般化された$ell$-smooth損失関数のより一般的で現実的なクラスについて研究し、$ell$は勾配ノルムの一般非減少関数である。
論文 参考訳(メタデータ) (2024-05-29T18:36:59Z) - Inverse-Free Fast Natural Gradient Descent Method for Deep Learning [52.0693420699086]
本稿では,第1期における逆転のみを必要とする高速な自然勾配降下法を提案する。
FNGDは1次法の平均和と類似性を示し、FNGDの計算複雑性は1次法に匹敵する。
論文 参考訳(メタデータ) (2024-03-06T05:13:28Z) - Two-Tailed Averaging: Anytime, Adaptive, Once-in-a-While Optimal Weight
Averaging for Better Generalization [0.0]
Tail AveragingはPolyak Averagingの非漸近的振る舞いを改善する。
純粋最適化ではなく一般化を改善することを目的としたTail Averagingの常用変種を提案する。
論文 参考訳(メタデータ) (2022-09-26T10:46:37Z) - Partial Model Averaging in Federated Learning: Performance Guarantees
and Benefits [15.77941565958136]
周期モデル平均化(FedAvg)を用いた局所勾配Descent(SGD)は、フェデレートラーニングにおける基礎的アルゴリズムである。
フェデレートラーニングにおけるモデルの相違を緩和する部分モデル平均化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T05:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。