Fugu-MT 論文翻訳(概要): From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency

論文の概要: From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency

arxiv url: http://arxiv.org/abs/2602.08007v1
Date: Sun, 08 Feb 2026 15:23:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.925131
Title: From $O(mn)$ to $O(r^2)$: Two-Sided Low-Rank Communication for Adam in Distributed Training with Memory Efficiency
Title（参考訳）: O(mn)$から$O(r^2)$: メモリ効率を考慮した分散トレーニングにおけるAdamのための双方向低ランク通信
Authors: Sizhe Dang, Jiaqi Shao, Xiaodong Zheng, Guang Dai, Yan Song, Haishan Ye,
Abstract要約: 我々は,Adamファミリー更新(TSR-Adam)における双方向低ランク通信を実現するTSRを提案する。サブスペースリフレッシュからのピーク通信をさらに削減するため、TSR-AdamはSVDベースのリフレッシュを採用した。 TSR-Adamは60Mから1Bのモデルスケールで事前トレーニングを行い、ステップ毎の平均通信バイトを13倍に削減し、GLUEの微調整では通信を25倍に削減し、同等のパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 28.885724420612323
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As foundation models continue to scale, pretraining increasingly relies on data-parallel distributed optimization, making bandwidth-limited gradient synchronization a key bottleneck. Orthogonally, projection-based low-rank optimizers were mainly designed for memory efficiency, but remain suboptimal for communication-limited training: one-sided synchronization still transmits an $O(rn)$ object for an $m\times n$ matrix gradient and refresh steps can dominate peak communicated bytes. We propose TSR, which brings two-sided low-rank communication to Adam-family updates (TSR-Adam) by synchronizing a compact core $U^\top G V\in\mathbb{R}^{r\times r}$, reducing the dominant per-step payload from $O(mn)$ to $O(r^2)$ while keeping moment states in low-dimensional cores. To further reduce the peak communication from subspace refresh, TSR-Adam adopts a randomized SVD-based refresh that avoids full-gradient synchronization. We additionally extend low-rank communication to embedding gradients with embedding-specific ranks and refresh schedules, yielding additional communication and memory savings over keeping embeddings dense. Across pretraining from 60M to 1B model scales, TSR-Adam reduces average communicated bytes per step by $13\times$, and on GLUE fine-tuning it reduces communication by $25\times$, while achieving comparable performance; we further provide a theoretical stationarity analysis for the proposed update. Code is available at https://github.com/DKmiyan/TSR-Adam.
Abstract（参考訳）: ファンデーションモデルが拡大を続けるにつれ、プレトレーニングはデータ並列分散最適化にますます依存し、帯域幅制限の勾配同期が重要なボトルネックとなる。直交的に言えば、プロジェクションベースの低ランクオプティマイザは、主にメモリ効率のために設計されたが、通信制限のあるトレーニングには依然として最適である:一方の同期は、$m\times n$行列勾配に対して$O(rn)$オブジェクトを送信し、リフレッシュステップは、通信されたバイトのピークを支配できる。我々は,コンパクトコアである$U^\top G V\in\mathbb{R}^{r\times r}$を同期させ,低次元コアのモーメント状態を保ちながら,上位のステップ単位のペイロードを$O(mn)$から$O(r^2)$に減らし,Adamファミリー更新(TSR-Adam)に双方向の低ランク通信をもたらすTSRを提案する。サブスペースリフレッシュからのピーク通信をさらに削減するため、TSR-AdamはSVDベースのリフレッシュを採用した。さらに、埋め込み固有のランクとリフレッシュスケジュールを持つ埋め込み勾配への低ランク通信を拡張し、埋め込みを密に保ちながら追加の通信とメモリ節約を実現する。 TSR-Adamは,60Mから1Bのモデルスケールへの事前トレーニングを通じて,ステップ毎の平均通信バイト数を13\times$に削減し,GLUEの微調整により通信量を25\times$に削減すると同時に,同等の性能を実現した上で,提案した更新に対する理論的定常性解析を行う。コードはhttps://github.com/DKmiyan/TSR-Adamで入手できる。

関連論文リスト

LoRDO: Distributed Low-Rank Optimization with Infrequent Communication [43.00539790635802]
$texttLoRDO$は、頻繁な同期を伴う低ランク最適化のための原則化されたフレームワークである。言語モデリングやダウンストリームタスクにおいて、$texttLoRDO$は低ランクの$texttDDP$とほぼ同等であることを示す。また、$texttLoRDO$は、小さなランク/バッチサイズで、非常に低メモリ設定でパフォーマンスをさらに改善します。
論文参考訳（メタデータ） (2026-02-04T10:25:24Z)
Evolution Strategies at the Hyperscale [57.75314521465674]
本稿では,大集団にバックプロップフリーな最適化を拡大するための進化戦略(ES)アルゴリズムEGGROLLを紹介する。 ESは、微分不可能またはノイズの多い目的を処理できる強力なブラックボックス最適化手法のセットである。 EGGROLLはランダム行列を$Ain mathbbRmtimes r, Bin mathbbRntimes r$ with $rll min(m,n)$ とすることでこれらのボトルネックを克服し、低ランク行列摂動を$A Btop$とする。
論文参考訳（メタデータ） (2025-11-20T18:56:05Z)
FRUGAL: Memory-Efficient Optimization by Reducing State Overhead for Scalable Training [51.39495282347475]
我々は、新しいメモリ効率最適化フレームワークであるtextbfF$ull-$textbfR$ank $textbfU$pdates with $textbfG$r$textbfA$dient sp$textbfL$ittingを紹介します。当社のフレームワークは,GaLoreやBAdamなど,さまざまな低ランク更新選択技術と統合することが可能です。
論文参考訳（メタデータ） (2024-11-12T14:41:07Z)
A Proximal Gradient Method With Probabilistic Multi-Gossip Communications for Decentralized Composite Optimization [49.17384566985762]
本稿では,分散合成(平滑+非平滑)最適化のための通信効率の良いMG-Skipを提案する。直接接続されていないネットワークでは、MG-Skipはマルチゴシップ通信を強い凸設定でほとんどのイテレーションでスキップすることができる。 MG-Skipは、証明可能な通信加速を実現し、非滑らかな設定におけるローカル更新の利点を検証する。
論文参考訳（メタデータ） (2023-12-19T05:13:16Z)
A Quadratic Synchronization Rule for Distributed Deep Learning [66.68264684667562]
本研究は、擬似同期規則(QSR)と呼ばれる$H$を決定するための理論基底法を提案する。 ResNet と ViT の実験により、QSR を用いた局所勾配法は、他の同期戦略よりもテスト精度を一貫して向上することが示された。
論文参考訳（メタデータ） (2023-10-22T21:38:57Z)
Accelerating Distributed ML Training via Selective Synchronization [0.0]
textttSelSyncは、DNNトレーニングの実践的で低オーバーヘッドな方法であり、各ステップでコミュニケーションを発生または回避することを動的に選択する。トレーニング時間を最大14$times$まで短縮しながら,BSPと同等あるいはより優れた精度に収束する。
論文参考訳（メタデータ） (2023-07-16T05:28:59Z)
$\ extbf{A}^2\ extbf{CiD}^2$: Accelerating Asynchronous Communication in Decentralized Deep Learning [0.0]
このアルゴリズムは、$textbfA2textbfCiD2$という連続的な局所運動量のおかげで動作する。我々の理論解析は、以前の非同期分散ベースラインと比較して加速速度を証明している。我々は、最大64の非同期ワーカーを使用して、ImageNetデータセットに一貫した改善を示す。
論文参考訳（メタデータ） (2023-06-14T06:52:07Z)
Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文参考訳（メタデータ） (2022-10-14T01:42:05Z)
DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization [0.0]
DADAOは、L$-smooth と $mu$-strongly convex 関数の和を最小化する最初の分散化、高速化、非同期化、プライマリ化、一階述語アルゴリズムである。我々のアルゴリズムは、$mathcalO(nsqrtchisqrtfracLmulog(frac1epsilon)$ localと$mathcalO(nsqrtchisqrtfracLmulog()のみを必要とすることを示す。
論文参考訳（メタデータ） (2022-07-26T08:47:54Z)
Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文参考訳（メタデータ） (2022-06-16T17:10:57Z)
Distributed Sparse Feature Selection in Communication-Restricted Networks [6.9257380648471765]
疎線形回帰と特徴選択のための新しい分散スキームを提案し,理論的に解析する。データセット全体から因果次元を推定するために,ネットワーク内の情報共有をシンプルかつ効果的に行う手法を提案する。
論文参考訳（メタデータ） (2021-11-02T05:02:24Z)
Training Recommender Systems at Scale: Communication-Efficient Model and Data Parallelism [56.78673028601739]
通信効率のよいハイブリッドトレーニングのためのDCT(Dynamic Communication Thresholding)という圧縮フレームワークを提案する。 DCTは、それぞれDPとMPの間に、少なくとも$100times$と$20times$の通信を削減します。最先端の産業レコメンデーションモデルのエンドツーエンドのトレーニング時間を、パフォーマンスを損なうことなく、37%改善する。
論文参考訳（メタデータ） (2020-10-18T01:44:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。