論文の概要: FedAdamW: A Communication-Efficient Optimizer with Convergence and Generalization Guarantees for Federated Large Models
- arxiv url: http://arxiv.org/abs/2510.27486v1
- Date: Fri, 31 Oct 2025 14:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.122299
- Title: FedAdamW: A Communication-Efficient Optimizer with Convergence and Generalization Guarantees for Federated Large Models
- Title(参考訳): FedAdamW: フェデレートされた大規模モデルに対する収束と一般化保証を備えた通信効率の良い最適化
- Authors: Junkang Liu, Fanhua Shang, Kewen Zhu, Hongying Liu, Yuanyuan Liu, Jin Liu,
- Abstract要約: AdamWは、大規模なモデルをトレーニングするための最も効果的な一般化の1つになった。
我々は、様々な大規模モデルのトレーニングと微調整を行うために、textttFedAdamWと呼ばれる最初のアンダーラインAdamWアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 27.658955798426323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AdamW has become one of the most effective optimizers for training large-scale models. We have also observed its effectiveness in the context of federated learning (FL). However, directly applying AdamW in federated learning settings poses significant challenges: (1) due to data heterogeneity, AdamW often yields high variance in the second-moment estimate $\boldsymbol{v}$; (2) the local overfitting of AdamW may cause client drift; and (3) Reinitializing moment estimates ($\boldsymbol{v}$, $\boldsymbol{m}$) at each round slows down convergence. To address these challenges, we propose the first \underline{Fed}erated \underline{AdamW} algorithm, called \texttt{FedAdamW}, for training and fine-tuning various large models. \texttt{FedAdamW} aligns local updates with the global update using both a \textbf{local correction mechanism} and decoupled weight decay to mitigate local overfitting. \texttt{FedAdamW} efficiently aggregates the \texttt{mean} of the second-moment estimates to reduce their variance and reinitialize them. Theoretically, we prove that \texttt{FedAdamW} achieves a linear speedup convergence rate of $\mathcal{O}(\sqrt{(L \Delta \sigma_l^2)/(S K R \epsilon^2)}+(L \Delta)/R)$ without \textbf{heterogeneity assumption}, where $S$ is the number of participating clients per round, $K$ is the number of local iterations, and $R$ is the total number of communication rounds. We also employ PAC-Bayesian generalization analysis to explain the effectiveness of decoupled weight decay in local training. Empirically, we validate the effectiveness of \texttt{FedAdamW} on language and vision Transformer models. Compared to several baselines, \texttt{FedAdamW} significantly reduces communication rounds and improves test accuracy. The code is available in https://github.com/junkangLiu0/FedAdamW.
- Abstract(参考訳): AdamWは、大規模なモデルをトレーニングするための最も効果的なオプティマイザの1つになった。
また,フェデレートラーニング(FL)の文脈においても,その効果が観察されている。
しかし、AdamWを直接フェデレートした学習環境に適用することは、大きな課題を生じさせる: (1) データの不均一性のため、AdamWは、しばしば第二モーメント推定において高い分散をもたらす: $\boldsymbol{v}$; (2)AdamWの局所的なオーバーフィッティングは、クライアントのドリフトを引き起こす可能性がある; 3) 各ラウンドにおけるモーメント推定(\boldsymbol{v}$, $\boldsymbol{m}$)は、各ラウンドにおける収束を遅くする。
これらの課題に対処するために、我々は、様々な大規模モデルの訓練と微調整のために、最初の \underline{Fed}erated \underline{AdamW} アルゴリズムである \texttt{FedAdamW} を提案する。
\texttt{FedAdamW} は、局所的な更新を \textbf{local correct mechanism} と decoupled weight decay の両方を使用してグローバルな更新と整合させ、局所的なオーバーフィッティングを緩和する。
texttt{FedAdamW} は、2番目のモーメント推定の \texttt{mean} を効率よく集約し、それらの分散を減らし、再初期化する。
理論的には、 \texttt{FedAdamW} が$\mathcal{O}(\sqrt{(L \Delta \sigma_l^2)/(S K R \epsilon^2)}+(L \Delta)/R)$ without \textbf{heterogeneity assumption} ここで、$S$ はラウンド毎の参加クライアント数であり、$K$ はローカルイテレーション数であり、$R$ は通信ラウンドの総数である。
また, PAC-Bayesian 一般化解析を用いて, 局所訓練におけるデカップリングウェイト崩壊の有効性について検討した。
経験的に,言語および視覚トランスフォーマーモデルにおけるtexttt{FedAdamW}の有効性を検証する。
いくつかのベースラインと比較して、 \texttt{FedAdamW} は通信ラウンドを大幅に削減し、テスト精度を向上させる。
コードはhttps://github.com/junkangLiu0/FedAdamW.comで入手できる。
関連論文リスト
- Arithmetic-Mean $μ$P for Modern Architectures: A Unified Learning-Rate Scale for CNNs and ResNets [9.94514344279733]
Arithmetic-Mean $mu$P は個々の層ではなく、ネットワーク全体の平均1ステップのプレアクティベーション第2モーメントを一定スケールに制限する。
1次元および2次元の畳み込みネットワークの場合、最大更新学習率は$etastar(L)propto L-3/2$; を満足する。
論文 参考訳(メタデータ) (2025-10-05T19:22:50Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - On the $O(\frac{\sqrt{d}}{K^{1/4}})$ Convergence Rate of AdamW Measured by $\ell_1$ Norm [52.95596504632859]
本稿では、$ell_1$ノルムで測定されたAdamWに対して、収束速度 $frac1Ksum_k=1KEleft[||nabla f(xk)||_1right]leq O(fracsqrtdCK1/4)$を確立する。
結果は、二重モーメント機構を用いたAdamW変種であるNAdamWに拡張し、同じ収束率を維持していることを示す。
論文 参考訳(メタデータ) (2025-05-17T05:02:52Z) - The Effectiveness of Local Updates for Decentralized Learning under Data Heterogeneity [15.394956794959615]
DGT(Decentralized Gradient Tracking)とDGD(Decentralized Gradient Descent)の2つの基本的な分散最適化手法を再検討する。
ローカルDGTが通信複雑性を$tildemathcalO Big(fracLmu(K+1) + fracdelta + mumu (1 - rho) + fracrho (1 - rho)2 cdot fracL+ deltamuBig)$, %zhizeを達成することを証明した。
論文 参考訳(メタデータ) (2024-03-23T00:01:34Z) - Towards Bias Correction of FedAvg over Nonuniform and Time-Varying
Communications [26.597515045714502]
Federated Learning(FL)は、パラメータサーバ(PS)とクライアントのコレクションが協調して、グローバルな目的を通じてモデルをトレーニングする分散学習フレームワークである。
チャネル条件が時間とともに変化している場合、FedFederated Postponedグローバルモデルは、ゴシップ型情報混合エラーを延期しないことを示す。
論文 参考訳(メタデータ) (2023-06-01T01:52:03Z) - Faster Rates for Compressed Federated Learning with Client-Variance
Reduction [23.169998435268504]
我々はCOFIGとFRECONが$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束していることを示す。
凸設定では、COFIGは$O(frac(1+omega)sqrtNSepsilon2)$通信ラウンドに収束する。
論文 参考訳(メタデータ) (2021-12-24T16:28:18Z) - Distributed Saddle-Point Problems Under Similarity [173.19083235638104]
与えられたサブ最適度$epsilon0$は、$Omegabigのマスター/ワーカーネットワークで達成されることを示す。
次に,ネットワークの下位の型(ログオーバまで)に適合するアルゴリズムを提案する。
頑健なロジスティック回帰問題に対して提案アルゴリズムの有効性を評価する。
論文 参考訳(メタデータ) (2021-07-22T14:25:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。