論文の概要: DES-LOC: Desynced Low Communication Adaptive Optimizers for Training Foundation Models
- arxiv url: http://arxiv.org/abs/2505.22549v1
- Date: Wed, 28 May 2025 16:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.731182
- Title: DES-LOC: Desynced Low Communication Adaptive Optimizers for Training Foundation Models
- Title(参考訳): DES-LOC:基礎モデルの訓練のための低通信適応最適化
- Authors: Alex Iacob, Lorenzo Sani, Mher Safaryan, Paris Giampouras, Samuel Horváth, Andrej Jovanovic, Meghdad Kurmanji, Preslav Aleksandrov, William F. Shen, Xinchi Qiu, Nicholas D. Lane,
- Abstract要約: ローカルSGDのような既存の頻繁な通信方式は、追加状態のため、自明に適用できない。
Desynced Low Communication Adaptives (DES-LOC)を提案する。
DES-LOCは、ファンデーションモデルトレーニングのためのスケーラブルで、帯域効率が高く、フォールトトレラントなソリューションを提供する。
- 参考スコア(独自算出の注目度): 19.378834752753693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling foundation model training with Distributed Data Parallel (DDP) methods is bandwidth-limited. Existing infrequent communication methods like Local SGD were designed to synchronize only model parameters and cannot be trivially applied to adaptive optimizers due to additional optimizer states. Current approaches extending Local SGD either lack convergence guarantees or require synchronizing all optimizer states, tripling communication costs. We propose Desynced Low Communication Adaptive Optimizers (DES-LOC), a family of optimizers assigning independent synchronization periods to parameters and momenta, enabling lower communication costs while preserving convergence. Through extensive experiments on language models of up to 1.7B, we show that DES-LOC can communicate 170x less than DDP and 2x less than the previous state-of-the-art Local ADAM. Furthermore, unlike previous heuristic approaches, DES-LOC is suited for practical training scenarios prone to system failures. DES-LOC offers a scalable, bandwidth-efficient, and fault-tolerant solution for foundation model training.
- Abstract(参考訳): 分散データ並列(DDP)法による基礎モデルのスケーリングは帯域幅に制限がある。
既存のSGDのような頻繁な通信方式はモデルパラメータのみを同期させるように設計されており、追加のオプティマイザ状態のため適応型オプティマイザには簡単に適用できない。
ローカルSGDを拡張する現在のアプローチでは、収束保証がないか、すべての最適化状態の同期が必要であり、通信コストは3倍になる。
DES-LOC(Desynced Low Communication Adaptive Optimizers)は、独立同期周期をパラメータやモータに割り当てる最適化器群である。
最大1.7Bの言語モデルに関する広範な実験を通して、DES-LOCはDDPの170倍、最先端のローカルADAMの2倍の速さで通信可能であることを示す。
さらに、従来のヒューリスティックアプローチとは異なり、DES-LOCはシステム障害を起こしやすい実践的なトレーニングシナリオに適している。
DES-LOCは、ファンデーションモデルトレーニングのためのスケーラブルで、帯域効率が高く、フォールトトレラントなソリューションを提供する。
関連論文リスト
- Efficient Federated Split Learning for Large Language Models over Communication Networks [14.461758448289908]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することは、リソース制約のあるエッジデバイスに重大な課題をもたらす。
我々は,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるFedsLLMを提案する。
論文 参考訳(メタデータ) (2025-04-20T16:16:54Z) - DiffPO: Diffusion-styled Preference Optimization for Efficient Inference-Time Alignment of Large Language Models [50.32663816994459]
拡散型優先度最適化(Diffusion-styled Preference Optimization: モデル)は、LLMを人間と整合させるための効率的でポリシーに依存しないソリューションを提供する。
modelavoidはトークンレベルの生成に関連する時間遅延をモデル化する。
AlpacaEval 2, MT-bench, HH-RLHFの実験により, 種々の環境におけるアライメント性能が良好であることが示された。
論文 参考訳(メタデータ) (2025-03-06T09:21:54Z) - Efficient Distributed Optimization under Heavy-Tailed Noise [32.96984712007111]
TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。
Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。
この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T15:47:18Z) - FADAS: Towards Federated Adaptive Asynchronous Optimization [56.09666452175333]
フェデレートラーニング(FL)は、プライバシ保護機械学習のトレーニングパラダイムとして広く採用されている。
本稿では、非同期更新を適応的フェデレーション最適化と証明可能な保証に組み込む新しい手法であるFADASについて紹介する。
提案アルゴリズムの収束率を厳格に確立し,FADASが他の非同期FLベースラインよりも優れていることを示す実験結果を得た。
論文 参考訳(メタデータ) (2024-07-25T20:02:57Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - FedAT: A High-Performance and Communication-Efficient Federated Learning
System with Asynchronous Tiers [22.59875034596411]
非i.d.データに基づく非同期タイアを用いた新しいフェデレーション学習手法であるFederated Learning法であるFedATを提案する。
FedATは、収束速度とテスト精度を改善したストラグラー効果を最小化する。
その結果、FedATは予測性能を最大21.09%改善し、最先端FL法と比較して通信コストを最大8.5倍削減した。
論文 参考訳(メタデータ) (2020-10-12T18:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。