論文の概要: High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates
- arxiv url: http://arxiv.org/abs/2407.06346v1
- Date: Mon, 8 Jul 2024 19:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 20:04:29.813210
- Title: High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates
- Title(参考訳): スケーラブル通信効率の良いグローバルアップデートを用いた高次元分散スパース分類
- Authors: Fred Lu, Ryan R. Curtin, Edward Raff, Francis Ferraro, James Holt,
- Abstract要約: 我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 50.406127962933915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the size of datasets used in statistical learning continues to grow, distributed training of models has attracted increasing attention. These methods partition the data and exploit parallelism to reduce memory and runtime, but suffer increasingly from communication costs as the data size or the number of iterations grows. Recent work on linear models has shown that a surrogate likelihood can be optimized locally to iteratively improve on an initial solution in a communication-efficient manner. However, existing versions of these methods experience multiple shortcomings as the data size becomes massive, including diverging updates and efficiently handling sparsity. In this work we develop solutions to these problems which enable us to learn a communication-efficient distributed logistic regression model even beyond millions of features. In our experiments we demonstrate a large improvement in accuracy over distributed algorithms with only a few distributed update steps needed, and similar or faster runtimes. Our code is available at \url{https://github.com/FutureComputing4AI/ProxCSL}.
- Abstract(参考訳): 統計学習に使用されるデータセットのサイズが大きくなるにつれて、モデルの分散トレーニングが注目を集めている。
これらのメソッドはデータを分割し、並列性を利用してメモリとランタイムを削減しますが、データサイズやイテレーションの数が増えるにつれて通信コストの増大に悩まされます。
線形モデルに関する最近の研究は、通信効率のよい方法で初期解を反復的に改善するために、代理確率を局所的に最適化できることを示してきた。
しかし、これらのメソッドの既存バージョンは、更新のばらつきやスパシティの効率的な処理を含む、データサイズが大きくなるにつれて、複数の欠点を経験する。
本研究では,コミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができるような問題に対するソリューションを開発する。
実験では、いくつかの分散更新ステップと、同様のあるいはより高速なランタイムで、分散アルゴリズムよりも精度が大幅に向上することを示した。
私たちのコードは \url{https://github.com/FutureComputing4AI/ProxCSL} で利用可能です。
関連論文リスト
- Optimizing the Optimal Weighted Average: Efficient Distributed Sparse Classification [50.406127962933915]
ACOWAは、小さなランタイムの増加とともに、顕著に優れた近似品質を達成するための追加の通信を可能にする。
その結果、ACOWAは経験的リスク最小化に忠実で、他の分散アルゴリズムよりもかなり高い精度で解が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-03T19:43:06Z) - Communication-Efficient Distributed Deep Learning via Federated Dynamic Averaging [1.4748100900619232]
Federated Dynamic Averaging (FDA)は通信効率の良いDDL戦略である。
FDAは従来のアルゴリズムと最先端のアルゴリズムと比較して、通信コストを桁違いに削減している。
論文 参考訳(メタデータ) (2024-05-31T16:34:11Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Scaling-up Distributed Processing of Data Streams for Machine Learning [10.581140430698103]
本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
論文 参考訳(メタデータ) (2020-05-18T16:28:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。