論文の概要: Compressed and Sparse Models for Non-Convex Decentralized Learning
- arxiv url: http://arxiv.org/abs/2311.05760v2
- Date: Wed, 5 Jun 2024 21:43:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:29:50.112944
- Title: Compressed and Sparse Models for Non-Convex Decentralized Learning
- Title(参考訳): 非凸分散学習のための圧縮・スパースモデル
- Authors: Andrew Campbell, Hang Liu, Leah Woldemariam, Anna Scaglione,
- Abstract要約: 頻繁なモデル通信は、分散機械学習の効率にとって重要なボトルネックである。
モデル空間と勾配勾配を組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。
本手法は,最先端技術と比較して通信コストを約75%削減する。
- 参考スコア(独自算出の注目度): 6.14375469212514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research highlights frequent model communication as a significant bottleneck to the efficiency of decentralized machine learning (ML), especially for large-scale and over-parameterized neural networks (NNs). To address this, we present Malcom-PSGD, a novel decentralized ML algorithm that combines gradient compression techniques with model sparsification. We promote model sparsity by adding $\ell_1$ regularization to the objective and present a decentralized proximal SGD method for training. Our approach employs vector source coding and dithering-based quantization for the compressed gradient communication of sparsified models. Our analysis demonstrates that Malcom-PSGD achieves a convergence rate of $\mathcal{O}(1/\sqrt{t})$ with respect to the iterations $t$, assuming a constant consensus and learning rate. This result is supported by our proof for the convergence of non-convex compressed Proximal SGD methods. Additionally, we conduct a bit analysis, providing a closed-form expression for the communication costs associated with Malcom-PSGD. Numerical results verify our theoretical findings and demonstrate that our method reduces communication costs by approximately $75\%$ when compared to the state-of-the-art.
- Abstract(参考訳): 最近の研究は、特に大規模かつ過度にパラメータ化されたニューラルネットワーク(NN)において、分散機械学習(ML)の効率に重要なボトルネックとして、頻繁なモデル通信を強調している。
そこで本研究では,勾配圧縮手法とモデルスペーシフィケーションを組み合わせた新しい分散MLアルゴリズムであるMalcom-PSGDを提案する。
我々は,目標値に$\ell_1$正規化を加えてモデルの疎結合を促進し,学習のための分散近位SGD法を提案する。
提案手法では,ベクトル源符号化とディザリングに基づく量子化を用いて,疎化モデルの圧縮勾配通信を行う。
我々の分析は、Malcom-PSGDが、一定のコンセンサスと学習率を仮定して、反復に対して$\mathcal{O}(1/\sqrt{t})$の収束率を達成していることを示している。
この結果は,非凸圧縮SGD法の収束性の証明によって裏付けられる。
さらに,Malcom-PSGDに関連する通信コストに対して,クローズドフォームの表現を行う。
その結果,提案手法は,最先端技術と比較して通信コストを約7,5 %削減できることがわかった。
関連論文リスト
- Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。
ディープラーニングによる異常検出が重要な方向として現れている。
エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文 参考訳(メタデータ) (2024-11-06T15:38:31Z) - Transfer Learning on Multi-Dimensional Data: A Novel Approach to Neural Network-Based Surrogate Modeling [0.0]
畳み込みニューラルネットワーク(CNN)はそのようなサロゲートモデルの基礎として人気を集めている。
本稿では,$d$次元問題と$d-1$次元近似の両方に対する数値解の混合によるCNN代理モデルのトレーニングを提案する。
転送学習を用いて,2種類のデータに対して,高密度な完全畳み込みエンコーダ・デコーダCNNを学習する多相フローテスト問題に対するアプローチを実証する。
論文 参考訳(メタデータ) (2024-10-16T05:07:48Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Compressed Federated Reinforcement Learning with a Generative Model [11.074080383657453]
強化学習は近年、前例のない人気を得たが、それでもサンプルの非効率さに悩まされている。
この課題に対処するため、フェデレーション強化学習(FedRL)が出現し、エージェントは局所的な推定を集約することで単一のポリシーを協調的に学習する。
通信効率のよいFedRL手法であるCompFedRLを提案する。
論文 参考訳(メタデータ) (2024-03-26T15:36:47Z) - Generative Fractional Diffusion Models [53.36835573822926]
我々は,その基礎となる力学に分数拡散過程を利用する,最初の連続時間スコアベース生成モデルを導入する。
実画像データを用いた評価では,GFDMはFIDが低い値で示されるように,画素幅の多様性と画質の向上を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:53:24Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - A Distributed Training Algorithm of Generative Adversarial Networks with
Quantized Gradients [8.202072658184166]
本稿では,量子化勾配を用いた分散GAN学習アルゴリズムDQGANを提案する。
この新しい方法は、OMDアルゴリズムと呼ばれる特定の単一マシンアルゴリズムに基づいてGANを訓練し、一般的な$delta$-approximate圧縮器を満たす任意の勾配圧縮手法に適用できる。
理論的には、DQGANアルゴリズムの1次定常点への非漸近収束を確立し、提案アルゴリズムが線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2020-10-26T06:06:43Z) - rTop-k: A Statistical Estimation Approach to Distributed SGD [5.197307534263253]
トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
論文 参考訳(メタデータ) (2020-05-21T16:27:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。