Fugu-MT 論文翻訳(概要): MALCOM-PSGD: Inexact Proximal Stochastic Gradient Descent for Communication-Efficient Decentralized Machine Learning

論文の概要: MALCOM-PSGD: Inexact Proximal Stochastic Gradient Descent for Communication-Efficient Decentralized Machine Learning

arxiv url: http://arxiv.org/abs/2311.05760v1
Date: Thu, 9 Nov 2023 21:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:36:16.476637
Title: MALCOM-PSGD: Inexact Proximal Stochastic Gradient Descent for Communication-Efficient Decentralized Machine Learning
Title（参考訳）: MALCOM-PSGD:コミュニケーション効率の良い分散機械学習のための非接触近確率勾配
Authors: Andrew Campbell, Hang Liu, Leah Woldemariam, and Anna Scaglione
Abstract要約: 頻繁なモデル通信は、分散機械学習の効率の大きなボトルネックである。 MALCOM-PSGDは,圧縮技術とモデルスペーシフィケーションを統合した新しい分散MLアルゴリズムである。本手法は,最先端手法と比較して通信コストを約75%削減する。
参考スコア（独自算出の注目度）: 6.14375469212514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research indicates that frequent model communication stands as a major bottleneck to the efficiency of decentralized machine learning (ML), particularly for large-scale and over-parameterized neural networks (NNs). In this paper, we introduce MALCOM-PSGD, a new decentralized ML algorithm that strategically integrates gradient compression techniques with model sparsification. MALCOM-PSGD leverages proximal stochastic gradient descent to handle the non-smoothness resulting from the $\ell_1$ regularization in model sparsification. Furthermore, we adapt vector source coding and dithering-based quantization for compressed gradient communication of sparsified models. Our analysis shows that decentralized proximal stochastic gradient descent with compressed communication has a convergence rate of $\mathcal{O}\left(\ln(t)/\sqrt{t}\right)$ assuming a diminishing learning rate and where $t$ denotes the number of iterations. Numerical results verify our theoretical findings and demonstrate that our method reduces communication costs by approximately $75\%$ when compared to the state-of-the-art method.
Abstract（参考訳）: 最近の研究では、分散機械学習(ML)の効率、特に大規模かつ過度にパラメータ化されたニューラルネットワーク(NN)において、頻繁なモデル通信が大きなボトルネックとなっていることが示されている。本稿では,モデルスペーシフィケーションと勾配圧縮手法を戦略的に統合した新しい分散MLアルゴリズムであるMALCOM-PSGDを紹介する。 MALCOM-PSGDは、モデルスカラー化における$\ell_1$正規化による非滑らか性を扱うために、近位確率勾配勾配を利用する。さらに,スパルシファイドモデルの圧縮勾配通信にベクトル源符号化とディザリングに基づく量子化を適用する。本研究では,圧縮通信を用いた分散的近位確率的勾配降下の収束率は,減少する学習率を仮定すると$\mathcal{o}\left(\ln(t)/\sqrt{t}\right)$であり,ここで$t$は反復数を表す。その結果, 提案手法は, 最先端手法と比較して, 通信コストを約75 %削減できることを示した。

関連論文リスト

Differential Privacy Analysis of Decentralized Gossip Averaging under Varying Threat Models [6.790905400046194]
本稿では,ノードレベルの付加雑音を用いた分散化ゴシップ平均化アルゴリズムの新たなプライバシー解析法を提案する。私たちの主な貢献は、これらのシナリオにおけるプライバシー漏洩を正確に特徴付ける新しい分析フレームワークです。従来の手法に比べてDP境界が優れていることを示す数値計算結果を用いて,本分析を検証した。
論文参考訳（メタデータ） (2025-05-26T13:31:43Z)
Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。非滑らかな正規化はしばしば機械学習タスクに組み込まれる。本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-04-17T08:32:25Z)
Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。ディープラーニングによる異常検出が重要な方向として現れている。エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文参考訳（メタデータ） (2024-11-06T15:38:31Z)
Transfer Learning on Multi-Dimensional Data: A Novel Approach to Neural Network-Based Surrogate Modeling [0.0]
畳み込みニューラルネットワーク(CNN)はそのようなサロゲートモデルの基礎として人気を集めている。本稿では,$d$次元問題と$d-1$次元近似の両方に対する数値解の混合によるCNN代理モデルのトレーニングを提案する。転送学習を用いて,2種類のデータに対して,高密度な完全畳み込みエンコーダ・デコーダCNNを学習する多相フローテスト問題に対するアプローチを実証する。
論文参考訳（メタデータ） (2024-10-16T05:07:48Z)
Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文参考訳（メタデータ） (2024-09-26T13:38:33Z)
Compressed Federated Reinforcement Learning with a Generative Model [11.074080383657453]
強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。通信効率のよいFedRL手法であるCompFedRLを提案する。
論文参考訳（メタデータ） (2024-03-26T15:36:47Z)
Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文参考訳（メタデータ） (2023-10-26T17:53:24Z)
Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察 ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文参考訳（メタデータ） (2023-06-28T18:14:22Z)
Fundamental Limits of Communication Efficiency for Model Aggregation in Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。 SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文参考訳（メタデータ） (2022-06-28T13:10:40Z)
Permutation Compressors for Provably Faster Distributed Nonconvex Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。 MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文参考訳（メタデータ） (2021-10-07T09:38:15Z)
A Distributed Training Algorithm of Generative Adversarial Networks with Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文参考訳（メタデータ） (2020-10-26T06:06:43Z)
rTop-k: A Statistical Estimation Approach to Distributed SGD [5.197307534263253]
トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。 CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
論文参考訳（メタデータ） (2020-05-21T16:27:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。