Fugu-MT 論文翻訳(概要): Rescaled Asynchronous SGD: Optimal Distributed Optimization under Data and System Heterogeneity

論文の概要: Rescaled Asynchronous SGD: Optimal Distributed Optimization under Data and System Heterogeneity

arxiv url: http://arxiv.org/abs/2605.13434v1
Date: Wed, 13 May 2026 12:27:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 23:30:28.040572
Title: Rescaled Asynchronous SGD: Optimal Distributed Optimization under Data and System Heterogeneity
Title（参考訳）: 再スケール非同期SGD:データとシステムの不均一性を考慮した最適分散最適化
Authors: Ammar Mahran, Artavazd Maranjyan, Peter Richtárik,
Abstract要約: 非同期バニラ(ASGD)は分散学習において異種計算資源を利用する標準的な方法である。本手法は,グローバルな目的ではなく,局所的な目的の周波数重み付けステップに偏りがあることが示される。実験により、この手法が正しい目的に収束し、最先端のベースラインと競合することが確認された。
参考スコア（独自算出の注目度）: 45.88028371034407
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Asynchronous stochastic gradient descent (ASGD) is a standard way to exploit heterogeneous compute resources in distributed learning: instead of forcing fast workers to wait for slow ones, the server updates the model whenever a gradient arrives. Vanilla ASGD applies each arriving gradient with the same weight. When local data distributions are heterogeneous, this becomes problematic: faster workers contribute more updates, and we show theoretically that the method is biased toward a frequency-weighted average of the local objectives rather than the desired global objective. Existing remedies typically move away from the simple ASGD template by introducing gathering phases, buffering, or extra memory. We show that this is unnecessary. Keeping the standard ASGD mechanism, we recover the correct objective by rescaling worker-specific stepsizes in proportion to their computation times, so that each worker contributes the same aggregate learning rate over a cycle. In the non-convex setting, under smoothness and bounded heterogeneity assumptions, we prove that the resulting method, Rescaled ASGD, converges to stationary points of the correct global objective in the fixed-computation model. Its time complexity matches the known lower bound in the leading term, while the effects of staleness and data heterogeneity appear only in lower-order terms. Experiments confirm that the method converges to the correct objective and is competitive with state-of-the-art baselines.
Abstract（参考訳）: 非同期確率勾配降下(ASGD)は、分散学習において異種計算資源を利用する標準的な方法である。バニラASGDは、各到着する勾配を同じ重さで適用する。より高速な作業者がより多くの更新に貢献し、理論上、この手法は所望のグローバルな目的ではなく、局所的な目的の周波数重み付け平均に偏っていることを示す。既存のリメディエーションは通常、収集フェーズ、バッファリング、または余分なメモリを導入することで、単純なASGDテンプレートから離れる。これは不要であることを示す。標準的なASGDメカニズムを保ちながら、作業者固有のステップを計算時間に比例して再スケーリングすることで、正しい目標を回復し、各作業者が1サイクルで同じ集合学習率に寄与する。非凸設定では、滑らかさと有界不均一性の仮定の下で、結果の方法であるRescaled ASGDが、固定計算モデルにおいて正しい大域目標の定常点に収束することを証明する。その時間複雑性は、先行項における既知の下界と一致するが、不安定性やデータ不均一性の影響は、下位項でのみ現れる。実験により、この手法が正しい目的に収束し、最先端のベースラインと競合することが確認された。

関連論文リスト

Simple yet Effective: Low-Rank Spatial Attention for Neural Operators [12.794762297826848]
本稿では,このテンプレートのクリーンかつ直接的なインスタンス化として,LRSA(Low-Rank Spatial Attention)を導入する。非標準集約や正規化モジュールに依存する従来のアプローチとは異なり、LRSAは標準トランスフォーマープリミティブから純粋に構築されている。我々の実験では、そのような単純な構成は高い精度を達成するのに十分であり、平均誤差は17%以上である。
論文参考訳（メタデータ） (2026-04-04T04:15:01Z)
Ringleader ASGD: The First Asynchronous SGD with Optimal Time Complexity under Data Heterogeneity [51.56484100374058]
本稿では,並列計算の理論的下界を実現する最初の非同期アルゴリズムであるリングリーダーASGDを紹介する。我々の分析により、リングリーダーASGDは任意の勾配と時間変化速度の下で最適であることが明らかとなった。
論文参考訳（メタデータ） (2025-09-26T19:19:15Z)
BayesTTA: Continual-Temporal Test-Time Adaptation for Vision-Language Models via Gaussian Discriminant Analysis [41.09181390655176]
CLIPのような視覚言語モデル(VLM)は、強いゼロショット認識を実現するが、実世界のシナリオに共通する時空間的な分散シフトの下で大幅に劣化する。テスト分布が時間とともに徐々に変化するCT-TTA(textitContinal-Temporal Test-Time Adaptation)として、この実践的問題を定式化する。我々は、時間的に一貫した予測を実行し、視覚表現を動的に調整する、ベイズ適応フレームワークであるtextitBayesTTAを提案する。
論文参考訳（メタデータ） (2025-07-11T14:02:54Z)
Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文参考訳（メタデータ） (2025-05-29T19:59:18Z)
Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Asynchronous Local-SGD Training for Language Modeling [37.02427878640653]
局所勾配降下(Local-SGD)は、各デバイスが通信毎に複数のSGD更新を行う分散最適化のアプローチである。この研究は、言語モデルをトレーニングするための非同期ローカル-SGDについて実証的研究を行い、SGDのステップが完了した直後に、各ワーカーがグローバルパラメータを更新する。
論文参考訳（メタデータ） (2024-01-17T11:17:04Z)
Linear Speedup of Incremental Aggregated Gradient Methods on Streaming Data [38.54333970135826]
本稿では,大規模分散最適化のためのインクリメンタル・アグリゲード・グラデーション(IAG)方式について考察する。ストリーミングIAG法は,作業者が頻繁な更新を行う場合の線形高速化を実現する。
論文参考訳（メタデータ） (2023-09-10T10:08:52Z)
DRAG: Divergence-based Adaptive Aggregation in Federated learning on Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-09-04T19:40:58Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。