論文の概要: Avoiding Communication in Logistic Regression
- arxiv url: http://arxiv.org/abs/2011.08281v1
- Date: Mon, 16 Nov 2020 21:14:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 01:17:46.405202
- Title: Avoiding Communication in Logistic Regression
- Title(参考訳): ロジスティック回帰におけるコミュニケーションの回避
- Authors: Aditya Devarakonda, James Demmel
- Abstract要約: 勾配降下(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。
並列的な設定では、SGDはイテレーション毎にプロセス間通信を必要とする。
本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
- 参考スコア(独自算出の注目度): 1.7780157772002312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Stochastic gradient descent (SGD) is one of the most widely used optimization
methods for solving various machine learning problems. SGD solves an
optimization problem by iteratively sampling a few data points from the input
data, computing gradients for the selected data points, and updating the
solution. However, in a parallel setting, SGD requires interprocess
communication at every iteration. We introduce a new communication-avoiding
technique for solving the logistic regression problem using SGD. This technique
re-organizes the SGD computations into a form that communicates every $s$
iterations instead of every iteration, where $s$ is a tuning parameter. We
prove theoretical flops, bandwidth, and latency upper bounds for SGD and its
new communication-avoiding variant. Furthermore, we show experimental results
that illustrate that the new Communication-Avoiding SGD (CA-SGD) method can
achieve speedups of up to $4.97\times$ on a high-performance Infiniband cluster
without altering the convergence behavior or accuracy.
- Abstract(参考訳): 確率勾配勾配(SGD)は、様々な機械学習問題を解くために最も広く使われている最適化手法の1つである。
SGDは、入力データからいくつかのデータポイントを反復的にサンプリングし、選択したデータポイントの計算勾配を計算し、ソリューションを更新することで最適化問題を解決する。
しかし、並列環境では、SGDは反復ごとにプロセス間通信を必要とする。
本稿では,SGDを用いたロジスティック回帰問題を解くための新しいコミュニケーション回避手法を提案する。
このテクニックは、sgd計算を、$s$がチューニングパラメータである各イテレーションの代わりに$s$イテレーションごとに通信する形式に再編成する。
我々は,SGDの理論的フロップ,帯域幅,遅延上限とその新しい通信回避変種を証明した。
さらに,新しい通信回避SGD(CA-SGD)法は,収束挙動や精度を変化させることなく,高速なインファイニバンドクラスタ上で最大4.97\times$の高速化を実現することを示す実験結果を示す。
関連論文リスト
- Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - Communication-Efficient, 2D Parallel Stochastic Gradient Descent for Distributed-Memory Optimization [2.2596489829928452]
この研究は、1D $s$-step SGD と Averaging (FedAvg) を用いた 1D Federated SGD の作業を一般化し、2D 並列 SGD 法 (HybridSGD) を生成する。
C++ と MPI で全てのアルゴリズムを実装し,Cray EX スーパーコンピュータシステム上での性能評価を行う。
論文 参考訳(メタデータ) (2025-01-13T17:56:39Z) - GDSG: Graph Diffusion-based Solution Generator for Optimization Problems in MEC Networks [109.17835015018532]
グラフ拡散型ソリューション生成(GDSG)法を提案する。
このアプローチは、おそらく最適な解に収束しながら、最適以下のデータセットを扱うように設計されている。
グラフニューラルネットワーク(GNN)を用いたマルチタスク拡散モデルとしてGDSGを構築し,高品質な解の分布を求める。
論文 参考訳(メタデータ) (2024-12-11T11:13:43Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。
本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文 参考訳(メタデータ) (2022-08-04T10:57:25Z) - A Communication-efficient Algorithm with Linear Convergence for
Federated Minimax Learning [1.713291434132985]
GAN(Geneimation Adversarial Networks)をモデル化した大規模マルチエージェントミニマックス最適化問題について検討する。
全体的な目的は、エージェントのプライベートなローカルな目的関数の総和である。
我々は,FedGDA-GTが,大域的な$epsilon GDA解に一定のステップサイズで線形収束することを示した。
論文 参考訳(メタデータ) (2022-06-02T16:31:16Z) - Adaptive Periodic Averaging: A Practical Approach to Reducing
Communication in Distributed Learning [6.370766463380455]
コンバージェンスと通信コストの観点からは,最適平均化期間は一定ではなく,実行過程によって異なることを示す。
本稿では,SGD (ADPSGD) を平均化する適応周期パラメータ (Adaptive Periodic parameter) という実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T00:04:55Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z) - Variance Reduced Local SGD with Lower Communication Complexity [52.44473777232414]
本稿では,通信の複雑さをさらに軽減するために,分散化ローカルSGDを提案する。
VRL-SGDは、労働者が同一でないデータセットにアクセスしても、通信の複雑さが低い$O(Tfrac12 Nfrac32)$で、エンフラーイテレーションのスピードアップを達成する。
論文 参考訳(メタデータ) (2019-12-30T08:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。