論文の概要: LoRDO: Distributed Low-Rank Optimization with Infrequent Communication
- arxiv url: http://arxiv.org/abs/2602.04396v1
- Date: Wed, 04 Feb 2026 10:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.473838
- Title: LoRDO: Distributed Low-Rank Optimization with Infrequent Communication
- Title(参考訳): LoRDO: 頻繁な通信による分散低ランク最適化
- Authors: Andrej Jovanović, Alex Iacob, Mher Safaryan, Ionut-Vlad Modoranu, Lorenzo Sani, William F. Shen, Xinchi Qiu, Dan Alistarh, Nicholas D. Lane,
- Abstract要約: $texttLoRDO$は、頻繁な同期を伴う低ランク最適化のための原則化されたフレームワークである。
言語モデリングやダウンストリームタスクにおいて、$texttLoRDO$は低ランクの$texttDDP$とほぼ同等であることを示す。
また、$texttLoRDO$は、小さなランク/バッチサイズで、非常に低メモリ設定でパフォーマンスをさらに改善します。
- 参考スコア(独自算出の注目度): 43.00539790635802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributed training of foundation models via $\texttt{DDP}$ is limited by interconnect bandwidth. While infrequent communication strategies reduce synchronization frequency, they remain bottlenecked by the memory and communication requirements of optimizer states. Low-rank optimizers can alleviate these constraints; however, in the local-update regime, workers lack access to the full-batch gradients required to compute low-rank projections, which degrades performance. We propose $\texttt{LoRDO}$, a principled framework unifying low-rank optimization with infrequent synchronization. We first demonstrate that, while global projections based on pseudo-gradients are theoretically superior, they permanently restrict the optimization trajectory to a low-rank subspace. To restore subspace exploration, we introduce a full-rank quasi-hyperbolic update. $\texttt{LoRDO}$ achieves near-parity with low-rank $\texttt{DDP}$ in language modeling and downstream tasks at model scales of $125$M--$720$M, while reducing communication by $\approx 10 \times$. Finally, we show that $\texttt{LoRDO}$ improves performance even more in very low-memory settings with small rank/batch size.
- Abstract(参考訳): $\texttt{DDP}$によるファンデーションモデルの分散トレーニングは、相互接続帯域幅によって制限される。
頻繁な通信戦略は同期周波数を減少させるが、オプティマイザ状態のメモリおよび通信要求にボトルネックが残る。
低ランクのオプティマイザはこれらの制約を緩和することができるが、ローカル更新のシステムでは、労働者は低ランクのプロジェクションを計算するのに必要なフルバッチ勾配にアクセスできないため、パフォーマンスが低下する。
頻繁な同期を伴う低ランク最適化を統一する原則的フレームワークである$\texttt{LoRDO}$を提案する。
まず、擬階数に基づく大域的射影は理論上優れているが、最適化軌道を低ランク部分空間に永久的に制限することを示した。
サブスペース探索を復元するために,全ランク準ハイエルボリック更新を導入する。
$\texttt{LoRDO}$は、低ランクの$\texttt{DDP}$で、言語モデリングとダウンストリームタスクにおいて、モデルスケールでの$25$M--$720$Mで、通信を$\approx 10 \times$で削減する。
最後に、$\texttt{LoRDO}$は、小さなランク/バッチサイズを持つ非常に低メモリ設定でパフォーマンスをさらに向上することを示す。
関連論文リスト
- From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency [28.885724420612323]
我々は,Adamファミリー更新(TSR-Adam)における双方向低ランク通信を実現するTSRを提案する。
サブスペースリフレッシュからのピーク通信をさらに削減するため、TSR-AdamはSVDベースのリフレッシュを採用した。
TSR-Adamは60Mから1Bのモデルスケールで事前トレーニングを行い、ステップ毎の平均通信バイトを13倍に削減し、GLUEの微調整では通信を25倍に削減し、同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-02-08T15:23:09Z) - BOOST: BOttleneck-Optimized Scalable Training Framework for Low-Rank Large Language Models [16.973973367103508]
低ランクのボトルネックアーキテクチャは、トレーニング時間とメモリフットプリントを大幅に削減する、有望なソリューションを提供する。
大規模低ランクボトルネックアーキテクチャに適した効率的なトレーニングフレームワークであるBOOSTを提案する。
BOOSTは1.46-1.91$times$ speedup over full-rank model baselinesと1.87-2.27$times$ speedup over low-rank model with naively integrated 3D parallelismを達成した。
論文 参考訳(メタデータ) (2025-12-13T01:50:18Z) - Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。
ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。
EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文 参考訳(メタデータ) (2025-11-20T18:56:05Z) - Communication-Efficient and Accurate Approach for Aggregation in Federated Low-Rank Adaptation [7.127777651952882]
現在のフェデレート低ランク適応(FedLoRA)メソッドは、不正確な更新のために顕著な課題に直面している。
textbfFederated textbfLow-textbfRank textbfAggregation with textbfNearly textbfAccurate Estimation (FLoRA-NA)を提案する。
FLoRA-NAは、局所的なパーソナライゼーションとグローバルな一般化のギャップを埋め、以前のパーソナライズされたFedLoRAアプローチの重要な制限に対処する。
論文 参考訳(メタデータ) (2025-09-30T15:32:26Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。
当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文 参考訳(メタデータ) (2024-11-12T14:41:07Z) - ACCO: Accumulate While You Communicate for Communication-Overlapped Sharded LLM Training [22.940404796500985]
分散学習LLMのためのメモリ効率最適化アルゴリズムを提案する。
新しい処理を計算しながら遅延勾配を同期することにより、ACCOはGPUアイドル時間を短縮し、異種ハードウェアをサポートする。
ZeRO-1と比較して、我々のアプローチは大幅に高速で、異種ハードウェアで効果的にスケールできる。
論文 参考訳(メタデータ) (2024-06-03T08:23:45Z) - Transfer Q Star: Principled Decoding for LLM Alignment [105.89114186982972]
Transfer $Q*$は、ベースラインモデルを通してターゲット報酬$r$の最適値関数を推定する。
提案手法は, 従来のSoTA法で観測された準最適差を著しく低減する。
論文 参考訳(メタデータ) (2024-05-30T21:36:12Z) - $\ extbf{A}^2\ extbf{CiD}^2$: Accelerating Asynchronous Communication in
Decentralized Deep Learning [0.0]
このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。
我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。
我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
論文 参考訳(メタデータ) (2023-06-14T06:52:07Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Faster Non-Convex Federated Learning via Global and Local Momentum [57.52663209739171]
textttFedGLOMOは最初の(一階)FLtexttFedGLOMOアルゴリズムです。
クライアントとサーバ間の通信においても,我々のアルゴリズムは確実に最適である。
論文 参考訳(メタデータ) (2020-12-07T21:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。