Fugu-MT 論文翻訳(概要): ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training

論文の概要: ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training

arxiv url: http://arxiv.org/abs/2406.02613v2
Date: Mon, 19 May 2025 14:02:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 21:29:33.273871
Title: ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training
Title（参考訳）: ACCO:コミュニケーションオーバーラップしたSharded LLMトレーニングのコミュニケーション中に蓄積される
Authors: Adel Nabli, Louis Fournier, Pierre Erbacher, Louis Serrano, Eugene Belilovsky, Edouard Oyallon,
Abstract要約: 我々は,分散LLM学習のためのメモリ効率最適化アルゴリズムである textbfCOmmunicate (acco) における textbfACcumulate を提案する。新しい処理を計算しながら遅延勾配を同期させることで、アイドル時間を短縮し、異種ハードウェアをサポートする。 ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
参考スコア（独自算出の注目度）: 16.560270624096706
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Training LLMs relies on distributed implementations using multiple GPUs to compute gradients in parallel with sharded optimizers. However, synchronizing gradients in data parallel setups introduces communication overhead that grows with the number of workers, limiting parallelization efficiency. Local optimization algorithms reduce communications but incur high memory costs as they prevent optimizer state sharding, hindering scalability. To address this, we propose \textbf{AC}cumulate while \textbf{CO}mmunicate (\acco), a memory-efficient optimization algorithm for distributed LLM training. By synchronizing delayed gradients while computing new ones, \acco~reduces GPU idle time and supports heterogeneous hardware. To mitigate the convergence issues caused by delayed updates, we introduce a novel technique ensuring training dynamics align with standard distributed optimization. Compared to ZeRO-1, our approach is significantly faster and scales effectively across heterogeneous hardware.
Abstract（参考訳）: LLMのトレーニングは、シャーディングオプティマイザと並行して勾配を計算するために、複数のGPUを使用した分散実装に依存している。しかし、データ並列セットアップにおける勾配の同期は、ワーカーの数に応じて増加する通信オーバーヘッドを導入し、並列化効率を制限します。ローカル最適化アルゴリズムは通信を削減しますが、最適化状態のシャーディングを防ぎ、スケーラビリティを妨げるため、メモリコストが高くなります。そこで本稿では,分散LLM学習のためのメモリ効率最適化アルゴリズムである‘textbf{CO}mmunicate (\acco) のとき, \textbf{AC}cumulateを提案する。新しい処理を計算しながら遅延勾配を同期することにより、‘acco~reduces GPU idle timeとヘテロジニアスハードウェアをサポートする。遅延更新による収束問題を緩和するため,標準的な分散最適化とトレーニングダイナミクスの整合性を確保する新しい手法を提案する。 ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。

関連論文リスト

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Comet: Fine-grained Computation-communication Overlapping for Mixture-of-Experts [8.80408909878008]
Mixture-of-experts (MoE) は、大規模な言語モデルを1兆以上のパラメータに拡張するために広く利用されている。既存の方法は、オーバーラップする計算でMoE層内の通信をパイプライン化することを提案している。細粒度通信-計算オーバラップを最適化したMOEシステムであるCOMETを提案する。
論文参考訳（メタデータ） (2025-02-27T06:36:45Z)
Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文参考訳（メタデータ） (2025-02-07T15:57:56Z)
Split Federated Learning Over Heterogeneous Edge Devices: Algorithm and Optimization [7.013344179232109]
Split Learning(SL)は、リソース制約のあるデバイスが生データを共有せずにモデルをトレーニングできるようにする、有望なコラボレーティブ機械学習アプローチである。現在のSLアルゴリズムは、トレーニング効率の限界に直面し、長時間のレイテンシに悩まされている。本稿では、リソース制約のあるクライアントが、パーソナライズされたクライアントサイドモデルを並列にトレーニングできる、異種分散フェデレーションラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-21T07:46:01Z)
A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。 ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文参考訳（メタデータ） (2023-10-22T21:38:57Z)
Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文参考訳（メタデータ） (2023-07-16T05:28:59Z)
$\textbf{A}^2\textbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning [0.0]
このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
論文参考訳（メタデータ） (2023-06-14T06:52:07Z)
TAMUNA: Doubly Accelerated Distributed Optimization with Local Training, Compression, and Partial Participation [53.84175614198885]
分散最適化と学習では、複数のマシンが並列にローカル計算と遠隔サーバとの通信を交互に行う。ローカルトレーニングと圧縮の2つの戦略を共同で活用し,部分的参加を可能にする分散最適化のための最初のアルゴリズムであるTAMUNAを提案する。
論文参考訳（メタデータ） (2023-02-20T08:37:44Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文参考訳（メタデータ） (2022-07-26T08:47:54Z)
Communication-Efficient TeraByte-Scale Model Training Framework for Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文参考訳（メタデータ） (2022-01-05T18:09:11Z)
Implementation of Parallel Simplified Swarm Optimization in CUDA [2.322689362836168]
最適化コンピューティングでは、インテリジェントなSwarmアルゴリズム(SIAs)が並列化に適している。本稿では,計算能力と汎用性を考慮したGPUに基づくSimplified Swarm Algorithm Optimization (PSSO)を提案する。結果から,Nの次数による時間複雑性の低減が達成され,資源プリエンプションの問題は完全に回避された。
論文参考訳（メタデータ） (2021-10-01T00:15:45Z)
AsySQN: Faster Vertical Federated Learning Algorithms with Better Computation Resource Utilization [159.75564904944707]
垂直連合学習(VFL)のための非同期準ニュートン(AsySQN)フレームワークを提案する。提案アルゴリズムは、逆ヘッセン行列を明示的に計算することなく、近似して降下ステップをスケールする。本稿では,非同期計算を採用することにより,計算資源の有効利用が期待できることを示す。
論文参考訳（メタデータ） (2021-09-26T07:56:10Z)
Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-26T14:55:31Z)
Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文参考訳（メタデータ） (2020-09-19T17:28:11Z)
Straggler-aware Distributed Learning: Communication Computation Latency Trade-off [56.08535873173518]
ストラグワーカーは冗長な計算を割り当て、データと計算をまたいでコーディングすることで許容できる。既存のほとんどのスキームでは、各非ストラグリングワーカーは、全ての計算を完了した後、1イテレーションごとに1つのメッセージをパラメータサーバ(PS)に送信する。このような制限を課すことで、ストレグリング動作の不正確な予測による過剰計算と、ストレグラー/非ストレグラーとしての作業員の処理による未使用の2つの主な欠点が生じる。
論文参考訳（メタデータ） (2020-04-10T08:39:36Z)
Communication Contention Aware Scheduling of Multiple Deep Learning Training Jobs [17.45154289084637]
我々は、DDLジョブをDAG(Directed Acyclic Graphs)として整理する新しいDDLジョブスケジューリングフレームワークを確立する。次に、GPU利用のバランスを保ち、各ジョブに割り当てられたGPUを統合するための効率的なアルゴリズム LWF-$kappa$ を提案する。 LWF-$kappa$は、古典的なファーストフィットアルゴリズムよりも最大$1.59タイムで改善できることを示す。
論文参考訳（メタデータ） (2020-02-24T07:50:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。