論文の概要: On the Trade-off between Flatness and Optimization in Distributed Learning
- arxiv url: http://arxiv.org/abs/2406.20006v1
- Date: Fri, 28 Jun 2024 15:46:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-07-01 16:20:56.597053
- Title: On the Trade-off between Flatness and Optimization in Distributed Learning
- Title(参考訳): 分散学習における平坦性と最適化のトレードオフについて
- Authors: Ying Cao, Zhaoxian Wu, Kun Yuan, Ali H. Sayed,
- Abstract要約: 本稿では,分散学習のための勾配差アルゴリズムの性能を評価・比較するための理論的枠組みを提案する。
このことは、分散学習戦略がローカライズから逃れることができることを示している。
- 参考スコア(独自算出の注目度): 42.609672086459845
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper proposes a theoretical framework to evaluate and compare the performance of gradient-descent algorithms for distributed learning in relation to their behavior around local minima in nonconvex environments. Previous works have noticed that convergence toward flat local minima tend to enhance the generalization ability of learning algorithms. This work discovers two interesting results. First, it shows that decentralized learning strategies are able to escape faster away from local minimizers and favor convergence toward flatter minima relative to the centralized solution in the large-batch training regime. Second, and importantly, the ultimate classification accuracy is not solely dependent on the flatness of the local minimizer but also on how well a learning algorithm can approach that minimum. In other words, the classification accuracy is a function of both flatness and optimization performance. The paper examines the interplay between the two measures of flatness and optimization error closely. One important conclusion is that decentralized strategies of the diffusion type deliver enhanced classification accuracy because it strikes a more favorable balance between flatness and optimization performance.
- Abstract(参考訳): 本研究では,非凸環境における局所最小値の挙動と分散学習における勾配差アルゴリズムの性能評価と比較を行う理論的枠組みを提案する。
従来の研究では、平坦な局所ミニマへの収束が学習アルゴリズムの一般化能力を高める傾向があることに気付いていた。
この研究は2つの興味深い結果を発見した。
まず、分散学習戦略は、局所的な最小化から脱却し、大規模バッチ学習体制における集中型ソリューションと比較して、よりフラットなミニマへの収束を優先できることを示す。
第二に、究極的な分類精度は、局所最小化器の平坦性にのみ依存するだけでなく、学習アルゴリズムがどれほどその最小値に近づくかにも依存する。
言い換えれば、分類精度は平坦性と最適化性能の両方の関数である。
本稿では,2つの平坦度と最適化誤差の相互関係について詳しく検討する。
1つの重要な結論は、拡散型の分散戦略は、平坦性と最適化性能のより良好なバランスをとるため、より高度な分類精度を提供するということである。
関連論文リスト
- Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Communication-Efficient Gradient Descent-Accent Methods for Distributed Variational Inequalities: Unified Analysis and Local Updates [28.700663352789395]
分散変分不等式問題(VIP)に対する通信効率の良い局所訓練手法の統一収束解析を提供する。
提案手法は,いくつかの新しい局所学習アルゴリズムの提案と解析を可能にする推定値に関する一般的な鍵となる仮定に基づいている。
異種データにおける分散変分不等式を解くために,通信複雑性の向上を図った最初の局所降下偏差アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T10:58:46Z) - Escaping Saddle Points with Bias-Variance Reduced Local Perturbed SGD
for Communication Efficient Nonconvex Distributed Learning [58.79085525115987]
ローカル手法は通信時間を短縮する有望なアプローチの1つである。
局所的データセットが局所的損失の滑らかさよりも小さい場合,通信の複雑さは非局所的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-12T15:12:17Z) - Questions for Flat-Minima Optimization of Modern Neural Networks [28.12506392321345]
平らなミニマを見つけるには, 平均化法(ウェイト平均化, SWA)と最小化法(アウェア, シャープネス最小化, SAM)の2つの方法が重要である。
本稿では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの系統的なベンチマークから,損失曲面を考察する。
論文 参考訳(メタデータ) (2022-02-01T18:56:15Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Community detection using fast low-cardinality semidefinite programming [94.4878715085334]
局所的な更新を一般化し、ライデン-k-カットから導かれる半定緩和を最大化する、新しい低カルチナリティアルゴリズムを提案する。
提案アルゴリズムはスケーラビリティが高く,最先端のアルゴリズムより優れ,実時間では性能が向上し,追加コストがほとんどない。
論文 参考訳(メタデータ) (2020-12-04T15:46:30Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - FedPD: A Federated Learning Framework with Optimal Rates and Adaptivity
to Non-IID Data [59.50904660420082]
フェデレートラーニング(FL)は、分散データから学ぶための一般的なパラダイムになっています。
クラウドに移行することなく、さまざまなデバイスのデータを効果的に活用するために、Federated Averaging(FedAvg)などのアルゴリズムでは、"Computation then aggregate"(CTA)モデルを採用している。
論文 参考訳(メタデータ) (2020-05-22T23:07:42Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。