論文の概要: Distributed Gradient Descent with Many Local Steps in Overparameterized Models
- arxiv url: http://arxiv.org/abs/2412.07971v1
- Date: Tue, 10 Dec 2024 23:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:02.474111
- Title: Distributed Gradient Descent with Many Local Steps in Overparameterized Models
- Title(参考訳): 過度パラメータ化モデルにおける多くの局所ステップを持つ分散グラディエントDescent
- Authors: Heng Zhu, Harsh Vardhan, Arya Mazumdar,
- Abstract要約: 機械学習モデルの分散トレーニングでは、局所的な反復ステップによる勾配降下が一般的な方法である。
局所勾配Descent (Local-GD) における暗黙のバイアスの観点から,この優れた性能を多くの局所ステップで説明しようと試みる。
- 参考スコア(独自算出の注目度): 20.560882414631784
- License:
- Abstract: In distributed training of machine learning models, gradient descent with local iterative steps is a very popular method, variants of which are commonly known as Local-SGD or the Federated Averaging (FedAvg). In this method, gradient steps based on local datasets are taken independently in distributed compute nodes to update the local models, which are then aggregated intermittently. Although the existing convergence analysis suggests that with heterogeneous data, FedAvg encounters quick performance degradation as the number of local steps increases, it is shown to work quite well in practice, especially in the distributed training of large language models. In this work we try to explain this good performance from a viewpoint of implicit bias in Local Gradient Descent (Local-GD) with a large number of local steps. In overparameterized regime, the gradient descent at each compute node would lead the model to a specific direction locally. We characterize the dynamics of the aggregated global model and compare it to the centralized model trained with all of the data in one place. In particular, we analyze the implicit bias of gradient descent on linear models, for both regression and classification tasks. Our analysis shows that the aggregated global model converges exactly to the centralized model for regression tasks, and converges (in direction) to the same feasible set as centralized model for classification tasks. We further propose a Modified Local-GD with a refined aggregation and theoretically show it converges to the centralized model in direction for linear classification. We empirically verified our theoretical findings in linear models and also conducted experiments on distributed fine-tuning of pretrained neural networks to further apply our theory.
- Abstract(参考訳): 機械学習モデルの分散トレーニングでは、局所反復ステップによる勾配降下が非常に一般的な方法であり、その変種はローカルSGD(Local-SGD)やフェデレート平均化(Federated Averaging、FedAvg)として知られている。
この方法では、局所的なデータセットに基づく勾配ステップを分散計算ノードで独立に取り込んでローカルモデルを更新し、間欠的に集約する。
既存の収束解析では、FedAvgは局所的なステップの数が増えるにつれて高速な性能低下に遭遇するが、特に大規模言語モデルの分散トレーニングにおいて、実際にかなりうまく機能することが示されている。
本研究では,局所勾配Descent (Local-GD) における暗黙バイアスの観点から,この優れた性能を多数の局所ステップで説明しようと試みる。
過度にパラメータ化された状態では、各計算ノードの勾配降下はモデルを特定の方向に局所的に導く。
集約されたグローバルモデルのダイナミクスを特徴付け、すべてのデータを一箇所でトレーニングした集中型モデルと比較する。
特に,線形モデル上での勾配降下の暗黙バイアスを回帰と分類の両タスクで解析する。
解析の結果、集約された大域的モデルは回帰タスクの集中モデルに完全に収束し、(方向)分類タスクの集中モデルと同じ可能な集合に収束することがわかった。
さらに,改良された集約型局所GDを提案し,線形分類のための集中モデルに収束することを理論的に示す。
我々は、線形モデルにおける理論的な知見を実証的に検証し、また、トレーニング済みニューラルネットワークの分散微調整実験を行い、我々の理論をさらに適用した。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - MASALA: Model-Agnostic Surrogate Explanations by Locality Adaptation [3.587367153279351]
既存のローカル説明可能なAI(XAI)メソッドは、与えられた入力インスタンスの近傍にある入力空間の領域を選択し、より単純で解釈可能な代理モデルを用いてモデルの振る舞いを近似する。
そこで本研究では,各インスタンスごとの衝突モデル行動の適切な局所領域を自動決定する手法であるMASALAを提案する。
論文 参考訳(メタデータ) (2024-08-19T15:26:45Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - Locally Adaptive and Differentiable Regression [10.194448186897906]
本稿では,局所学習モデルの重み付き平均値に基づいて,グローバルな連続・微分可能なモデルを構築するための一般的な枠組みを提案する。
局所モデルでカーネルリッジと回帰項を混合し、それらを連続的に縫合すると、理論上の統計的収束が早くなり、様々な実用的な設定で性能が向上することを示した。
論文 参考訳(メタデータ) (2023-08-14T19:12:40Z) - Local Convergence of Gradient Descent-Ascent for Training Generative
Adversarial Networks [20.362912591032636]
本稿では,GANをカーネルベース判別器で訓練するための勾配降下度(GDA)の局所的ダイナミクスについて検討する。
システムがいつ収束するか、振動するか、あるいは分岐するかを示す相転移を示す。
論文 参考訳(メタデータ) (2023-05-14T23:23:08Z) - Integrating Local Real Data with Global Gradient Prototypes for
Classifier Re-Balancing in Federated Long-Tailed Learning [60.41501515192088]
フェデレートラーニング(FL)は、グローバルモデルを協調的にトレーニングする複数のクライアントを含む、人気のある分散ラーニングパラダイムになっています。
データサンプルは通常、現実世界の長い尾の分布に従っており、分散化された長い尾のデータのFLは、貧弱なグローバルモデルをもたらす。
本研究では、局所的な実データとグローバルな勾配のプロトタイプを統合し、局所的なバランスの取れたデータセットを形成する。
論文 参考訳(メタデータ) (2023-01-25T03:18:10Z) - Super-model ecosystem: A domain-adaptation perspective [101.76769818069072]
本稿では,ドメイン適応による新たなスーパーモデルパラダイムの理論的基礎を確立することを試みる。
スーパーモデルパラダイムは、計算とデータコストと二酸化炭素排出量を減らすのに役立つ。
論文 参考訳(メタデータ) (2022-08-30T09:09:43Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。