論文の概要: Communication-Efficient Distributed Training for Collaborative Flat Optima Recovery in Deep Learning
- arxiv url: http://arxiv.org/abs/2507.20424v2
- Date: Fri, 10 Oct 2025 00:35:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:45.896395
- Title: Communication-Efficient Distributed Training for Collaborative Flat Optima Recovery in Deep Learning
- Title(参考訳): 深層学習における協調的フラット・オプティマ回復のためのコミュニケーション効率の良い分散学習
- Authors: Tolga Dimlioglu, Anna Choromanska,
- Abstract要約: 本研究では,ディープニューラルネットワーク(DNN)の並列分散データについて検討し,通信効率とモデル性能のトレードオフを改善する。
Inverse Mean ValleyはDNNの一般化と強い相関関係を示す。
DPPFは他の通信効率の高い手法よりも優れており、局所的な手法や勾配平均よりも優れた一般化性能が得られることを示す。
- 参考スコア(独自算出の注目度): 9.245468958723182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study centralized distributed data parallel training of deep neural networks (DNNs), aiming to improve the trade-off between communication efficiency and model performance of the local gradient methods. To this end, we revisit the flat-minima hypothesis, which suggests that models with better generalization tend to lie in flatter regions of the loss landscape. We introduce a simple, yet effective, sharpness measure, Inverse Mean Valley, and demonstrate its strong correlation with the generalization gap of DNNs. We incorporate an efficient relaxation of this measure into the distributed training objective as a lightweight regularizer that encourages workers to collaboratively seek wide minima. The regularizer exerts a pushing force that counteracts the consensus step pulling the workers together, giving rise to the Distributed Pull-Push Force (DPPF) algorithm. Empirically, we show that DPPF outperforms other communication-efficient approaches and achieves better generalization performance than local gradient methods and synchronous gradient averaging, while maintaining communication efficiency. In addition, our loss landscape visualizations confirm the ability of DPPF to locate flatter minima. On the theoretical side, we show that DPPF guides workers to span flat valleys, with the final valley width governed by the interplay between push and pull strengths, and that its pull-push dynamics is self-stabilizing. We further provide generalization guarantees linked to the valley width and prove convergence in the non-convex setting.
- Abstract(参考訳): 本研究では,ディープニューラルネットワーク(DNN)の集中分散データ並列トレーニングについて検討し,局所勾配法における通信効率とモデル性能のトレードオフを改善することを目的とした。
この目的のために、我々はフラットミニマ仮説を再考し、より一般化されたモデルは損失ランドスケープのより平坦な領域に置かれる傾向があることを示唆する。
Inverse Mean Valley は,DNN の一般化ギャップと強い相関関係を示す。
我々は,この尺度の効率的な緩和を分散トレーニングの目的に取り入れ,労働者が広範囲のミニマを共同で探すための軽量レギュレータとして活用する。
レギュラーライザは、労働者を一緒に引っ張るコンセンサスステップに反するプッシュフォースを実行し、分散プルプッシュフォース(DPPF)アルゴリズムを発生させる。
実験により、DPPFは他の通信効率の高い手法よりも優れており、通信効率を維持しつつ、局所勾配法や同期勾配平均化よりも優れた一般化性能が得られることを示す。
さらに、損失景観の可視化により、DPPFが平らなミニマの位置を推定できることが確認された。
理論的には、DPPFは労働者を平らな谷まで誘導し、最後の谷幅はプッシュとプルの強度の相互作用によって支配され、プル・プッシュのダイナミクスは自己安定化されていることを示す。
さらに、谷幅に関連付けられた一般化保証を提供し、非凸設定における収束を証明する。
関連論文リスト
- SENTINEL: Stagewise Integrity Verification for Pipeline Parallel Decentralized Training [54.8494905524997]
分散トレーニングは、信頼できない、地理的に分散したノードで実行される場合、重大なセキュリティリスクをもたらす。
重複のないパイプライン並列性(PP)トレーニングの検証機構であるSENTINELを提案する。
実験では、モデル収束と性能を維持しながら、最大176人の労働者を持つ信頼できない分散環境における最大4BパラメータLSMのトレーニングを成功させた。
論文 参考訳(メタデータ) (2026-03-03T23:51:10Z) - Diffusing to Coordinate: Efficient Online Multi-Agent Diffusion Policies [51.24079409973799]
拡散に基づく生成モデルは、オンラインマルチエージェント強化学習(MARL)のニーズを満たすために適切に配置されている
我々は、アンダーライン拡散ポリシーを用いて、最初のアンダーラインオフラインアンダーラインMARLフレームワークを提案する。
私たちのキーとなるイノベーションは、拡張された関節のエントロピーを最大化する、緩和された政策目標です。
論文 参考訳(メタデータ) (2026-02-20T15:38:02Z) - Local adapt-then-combine algorithms for distributed nonsmooth optimization: Achieving provable communication acceleration [50.67878993903822]
通信効率のよいAdapt-Then-Combine (ATC) フレームワークであるFlexATCを提案する。
ローカル更新がATCベースの分散アルゴリズムの通信高速化につながることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2026-02-18T02:47:05Z) - Strategies for Improving Communication Efficiency in Distributed and Federated Learning: Compression, Local Training, and Personalization [8.579148218325168]
論文は、モデル圧縮、ローカルトレーニング、パーソナライゼーションに焦点を当て、コミュニケーション効率を改善するための戦略を探求する。
我々は,収束保証付き圧縮演算子のための統一的なフレームワークを構築した。
本稿では,収束を加速し,クライアントのドリフトを軽減するためにパーソナライズを取り入れた適応型ローカルトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2025-09-10T02:19:56Z) - Implicit Reward as the Bridge: A Unified View of SFT and DPO Connections [65.36449542323277]
本稿では,Large Language Model (LLM) 後の学習において,SFT(Supervised Fine-Tuning) と優先学習を統合した理論フレームワークを提案する。
そこで本研究では,学習率の簡易かつ効果的な削減手法を提案する。
論文 参考訳(メタデータ) (2025-06-15T05:42:29Z) - Decentralized Federated Learning with Gradient Tracking over Time-Varying Directed Networks [42.92231921732718]
本稿では,DSGTm-TVというコンセンサスに基づくアルゴリズムを提案する。
グラデーショントラッキングとヘビーボールモーメントを取り入れて、グローバルな目的関数を最適化する。
DSGTm-TVでは、エージェントは近隣エージェントとの情報交換を用いて局所モデルパラメータと勾配推定を更新する。
論文 参考訳(メタデータ) (2024-09-25T06:23:16Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Decentralized Directed Collaboration for Personalized Federated Learning [39.29794569421094]
我々は分散トレーニングモデル計算を行う分散パーソナライズドラーニング(DPFL)に集中する。
我々は, textbfDecentralized textbfFederated textbfPartial textbfGradient textbfPedGP を組み込んだ協調型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T06:52:19Z) - DRAG: Divergence-based Adaptive Aggregation in Federated learning on
Non-IID Data [11.830891255837788]
局所勾配降下(SGD)は、フェデレートラーニング(FL)におけるコミュニケーション効率向上の基本的なアプローチである
我々は,局所勾配と大域基準方向の角度を定量化する「発散度」と呼ばれる新しい計量を導入する。
本稿では,各ラウンドの参照方向に対して受信した局所的な更新を,余分な通信オーバーヘッドを伴わずに動的にドラッグする分散型アダプティブアグリゲーション(DRAG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-04T19:40:58Z) - Magnitude Matters: Fixing SIGNSGD Through Magnitude-Aware Sparsification
in the Presence of Data Heterogeneity [60.791736094073]
通信オーバーヘッドは、ディープニューラルネットワークの分散トレーニングにおいて、大きなボトルネックのひとつになっています。
本稿では,SIGNSGDの非収束問題に対処する等級化方式を提案する。
提案手法は,Fashion-MNIST, CIFAR-10, CIFAR-100データセットを用いて検証した。
論文 参考訳(メタデータ) (2023-02-19T17:42:35Z) - FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations [53.268801169075836]
我々は,フェデレーション学習のための新しいプライバシ保護手法であるFedLAP-DPを提案する。
公式なプライバシー分析は、FedLAP-DPが典型的な勾配共有方式と同じプライバシーコストを発生させることを示している。
提案手法は, 通常の勾配共有法に比べて高速な収束速度を示す。
論文 参考訳(メタデータ) (2023-02-02T12:56:46Z) - Analyzing the Effect of Sampling in GNNs on Individual Fairness [79.28449844690566]
グラフニューラルネットワーク(GNN)ベースの手法は、レコメンダシステムの分野を飽和させた。
我々は,GNNの学習を支援するために,グラフ上で個別の公平性を促進させる既存手法を拡張した。
本研究では,局所ニュアンスが表現学習における公平化促進の過程を導くことによって,ミニバッチトレーニングが個人の公正化を促進することを示す。
論文 参考訳(メタデータ) (2022-09-08T16:20:25Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Intermittent Pulling with Local Compensation for Communication-Efficient
Federated Learning [20.964434898554344]
Federated Learningは、高度に分散したデータでグローバルモデルをトレーニングするための強力な機械学習パラダイムである。
分散SGDの性能における大きなボトルネックは、ローカルおよびプルグローバルモデルをプッシュする際の通信オーバーヘッドである。
本稿では,通信オーバーヘッドを低減するため,PRLC (Gradient Pulling Compensation) という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-01-22T20:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。