論文の概要: Communication-Efficient Distributed Training for Collaborative Flat Optima Recovery in Deep Learning
- arxiv url: http://arxiv.org/abs/2507.20424v1
- Date: Sun, 27 Jul 2025 21:49:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.670057
- Title: Communication-Efficient Distributed Training for Collaborative Flat Optima Recovery in Deep Learning
- Title(参考訳): 深層学習における協調的フラット・オプティマ回復のためのコミュニケーション効率の良い分散学習
- Authors: Tolga Dimlioglu, Anna Choromanska,
- Abstract要約: 作業員が協力して広義のミニマを求めることを奨励する軽量レギュレータを導入する。
レギュラーライザは、労働者をまとめて引き寄せるコンセンサスステップに反するプッシュフォースを実行する。
DPPFは他の通信効率の高い手法よりも優れ、局所的な手法よりも優れた一般化性能を示す。
- 参考スコア(独自算出の注目度): 7.93777068431403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study centralized distributed data parallel training of deep neural networks (DNNs), aiming to improve the trade-off between communication efficiency and model performance of the local gradient methods. To this end, we revisit the flat-minima hypothesis, which suggests that models with better generalization tend to lie in flatter regions of the loss landscape. We introduce a simple, yet effective, sharpness measure, Inverse Mean Valley, and demonstrate its strong correlation with the generalization gap of DNNs. We incorporate an efficient relaxation of this measure into the distributed training objective as a lightweight regularizer that encourages workers to collaboratively seek wide minima. The regularizer exerts a pushing force that counteracts the consensus step pulling the workers together, giving rise to the Distributed Pull-Push Force (DPPF) algorithm. Empirically, we show that DPPF outperforms other communication-efficient approaches and achieves better generalization performance than local gradient methods and synchronous gradient averaging, while significantly reducing communication overhead. In addition, our loss landscape visualizations confirm the ability of DPPF to locate flatter minima. On the theoretical side, we show that DPPF guides workers to span flat valleys, with the final valley width governed by the interplay between push and pull strengths, and that its pull-push dynamics is self-stabilizing. We further provide generalization guarantees linked to the valley width and prove convergence in the non-convex setting.
- Abstract(参考訳): 本研究では,ディープニューラルネットワーク(DNN)の集中分散データ並列トレーニングについて検討し,局所勾配法における通信効率とモデル性能のトレードオフを改善することを目的とした。
この目的のために、我々はフラットミニマ仮説を再考し、より一般化されたモデルは損失ランドスケープのより平坦な領域に置かれる傾向があることを示唆する。
Inverse Mean Valley は,DNN の一般化ギャップと強い相関関係を示す。
我々は,この尺度の効率的な緩和を分散トレーニングの目的に取り入れ,労働者が広範囲のミニマを共同で探すための軽量レギュレータとして活用する。
レギュラーライザは、労働者を一緒に引っ張るコンセンサスステップに反するプッシュフォースを実行し、分散プルプッシュフォース(DPPF)アルゴリズムを発生させる。
実験により, DPPFは他の通信効率の高い手法よりも優れ, 局所勾配法や同期勾配平均化よりも優れた一般化性能を実現し, 通信オーバーヘッドを大幅に低減することを示した。
さらに、損失景観の可視化により、DPPFが平らなミニマの位置を推定できることが確認された。
理論的には、DPPFは労働者を平らな谷まで誘導し、最後の谷幅はプッシュとプルの強度の相互作用によって支配され、プル・プッシュのダイナミクスは自己安定化されていることを示す。
さらに、谷幅に関連付けられた一般化保証を提供し、非凸設定における収束を証明する。
関連論文リスト
- Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Decentralized Federated Learning with Gradient Tracking over Time-Varying Directed Networks [42.92231921732718]
本稿では,DSGTm-TVというコンセンサスに基づくアルゴリズムを提案する。
グラデーショントラッキングとヘビーボールモーメントを取り入れて、グローバルな目的関数を最適化する。
DSGTm-TVでは、エージェントは近隣エージェントとの情報交換を用いて局所モデルパラメータと勾配推定を更新する。
論文 参考訳(メタデータ) (2024-09-25T06:23:16Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Decentralized Directed Collaboration for Personalized Federated Learning [39.29794569421094]
我々は分散トレーニングモデル計算を行う分散パーソナライズドラーニング(DPFL)に集中する。
我々は, textbfDecentralized textbfFederated textbfPartial textbfGradient textbfPedGP を組み込んだ協調型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T06:52:19Z) - DRAG: Divergence-based Adaptive Aggregation in Federated learning on
Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである
我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T19:40:58Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations [53.268801169075836]
我々は,フェデレーション学習のための新しいプライバシ保護手法であるFedLAP-DPを提案する。
公式なプライバシー分析は、FedLAP-DPが典型的な勾配共有方式と同じプライバシーコストを発生させることを示している。
提案手法は, 通常の勾配共有法に比べて高速な収束速度を示す。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - Analyzing the Effect of Sampling in GNNs on Individual Fairness [79.28449844690566]
グラフニューラルネットワーク(GNN)ベースの手法は、レコメンダシステムの分野を飽和させた。
我々は,GNNの学習を支援するために,グラフ上で個別の公平性を促進させる既存手法を拡張した。
本研究では,局所ニュアンスが表現学習における公平化促進の過程を導くことによって,ミニバッチトレーニングが個人の公正化を促進することを示す。
論文 参考訳(メタデータ) (2022-09-08T16:20:25Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Intermittent Pulling with Local Compensation for Communication-Efficient
Federated Learning [20.964434898554344]
Federated Learningは、高度に分散したデータでグローバルモデルをトレーニングするための強力な機械学習パラダイムである。
分散SGDの性能における大きなボトルネックは、ローカルおよびプルグローバルモデルをプッシュする際の通信オーバーヘッドである。
本稿では,通信オーバーヘッドを低減するため,PRLC (Gradient Pulling Compensation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T20:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。