論文の概要: Scaling-up Distributed Processing of Data Streams for Machine Learning
- arxiv url: http://arxiv.org/abs/2005.08854v2
- Date: Mon, 31 Aug 2020 23:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 23:30:58.749047
- Title: Scaling-up Distributed Processing of Data Streams for Machine Learning
- Title(参考訳): 機械学習のためのデータストリームのスケールアップ分散処理
- Authors: Matthew Nokleby, Haroon Raja, and Waheed U. Bajwa
- Abstract要約: 本稿では,計算・帯域幅制限方式における大規模分散最適化に着目した手法を最近開発した。
i)分散凸問題、(ii)分散主成分分析、(ii)グローバル収束を許容する幾何学的構造に関する非問題である。
- 参考スコア(独自算出の注目度): 10.581140430698103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emerging applications of machine learning in numerous areas involve
continuous gathering of and learning from streams of data. Real-time
incorporation of streaming data into the learned models is essential for
improved inference in these applications. Further, these applications often
involve data that are either inherently gathered at geographically distributed
entities or that are intentionally distributed across multiple machines for
memory, computational, and/or privacy reasons. Training of models in this
distributed, streaming setting requires solving stochastic optimization
problems in a collaborative manner over communication links between the
physical entities. When the streaming data rate is high compared to the
processing capabilities of compute nodes and/or the rate of the communications
links, this poses a challenging question: how can one best leverage the
incoming data for distributed training under constraints on computing
capabilities and/or communications rate? A large body of research has emerged
in recent decades to tackle this and related problems. This paper reviews
recently developed methods that focus on large-scale distributed stochastic
optimization in the compute- and bandwidth-limited regime, with an emphasis on
convergence analysis that explicitly accounts for the mismatch between
computation, communication and streaming rates. In particular, it focuses on
methods that solve: (i) distributed stochastic convex problems, and (ii)
distributed principal component analysis, which is a nonconvex problem with
geometric structure that permits global convergence. For such methods, the
paper discusses recent advances in terms of distributed algorithmic designs
when faced with high-rate streaming data. Further, it reviews guarantees
underlying these methods, which show there exist regimes in which systems can
learn from distributed, streaming data at order-optimal rates.
- Abstract(参考訳): 機械学習の多くの分野における新しい応用は、データストリームからの継続的な収集と学習を伴う。
これらのアプリケーションの推論を改善するには、ストリーミングデータを学習モデルにリアルタイムに組み込むことが不可欠である。
さらに、これらのアプリケーションは、地理的に分散したエンティティに本質的に収集されるか、メモリ、計算、プライバシの理由から故意に複数のマシンに分散されるデータを含むことが多い。
この分散ストリーミング環境でのモデルのトレーニングでは、物理的エンティティ間の通信リンクよりも協調的に確率的最適化問題を解く必要がある。
ストリーミングデータレートが計算ノードの処理能力や/または通信リンクのレートと比較して高い場合、これは難しい問題となる。
この問題と関連する問題に取り組むために、ここ数十年で大規模な研究が生まれている。
本稿では,計算・通信・ストリーミング速度のミスマッチを明示的に考慮した収束解析に重点を置いた,計算・帯域制限領域における大規模分散確率最適化手法について述べる。
特に、解決する方法に焦点を当てている。
(i)分散確率凸問題、及び
(II)大域収束を可能にする幾何学構造を持つ非凸問題である分散主成分分析。
本稿では,高速ストリーミングデータに対して,分散アルゴリズム設計の観点からの最近の進歩について述べる。
さらに、これらの手法の根底にある保証をレビューし、システムは順序-最適速度で分散ストリーミングデータから学習できることを示す。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - Optimal Data Splitting in Distributed Optimization for Machine Learning [85.99744701008802]
本研究は,サーバとローカルマシン間の分散データの最適比に着目し,通信コストとローカル計算のコストについて検討する。
ネットワークの実行時間は、一様分布と最適分布で比較される。
提案手法の優れた理論的性能を実験的に検証した。
論文 参考訳(メタデータ) (2024-01-15T16:30:12Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - Online Distributed Learning with Quantized Finite-Time Coordination [0.4910937238451484]
私たちの設定では、エージェントのセットは、ストリーミングデータから学習モデルを協調的にトレーニングする必要があります。
本稿では,量子化された有限時間協調プロトコルに依存する分散アルゴリズムを提案する。
提案アルゴリズムの性能を,オンラインソリューションからの平均距離の観点から解析する。
論文 参考訳(メタデータ) (2023-07-13T08:36:15Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - A Newton-type algorithm for federated learning based on incremental
Hessian eigenvector sharing [5.404315085380945]
我々は、フェデレートラーニング(FL)を高速化するために設計された、通信制約付きニュートン型(NT)アルゴリズムを提案する。
提案手法は実際のデータセットで完全に検証される。
論文 参考訳(メタデータ) (2022-02-11T17:52:56Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Distributed Estimation of Sparse Inverse Covariance Matrices [0.7832189413179361]
分散エージェントが収集したデータからネットワーク構造をリアルタイムで学習する分散スパース逆共分散アルゴリズムを提案する。
我々のアプローチは、エージェントが望ましい構造を協調的に学習できるコンセンサス項を付加した、オンラインのグラフィカル交代最小化アルゴリズムに基づいて構築されている。
論文 参考訳(メタデータ) (2021-09-24T15:26:41Z) - Communication-Efficient Distributed Deep Learning: A Comprehensive
Survey [22.42450750097714]
本稿では,コミュニケーション効率のよい分散学習アルゴリズムの総合的な調査を行う。
まず,データ並列分散トレーニングアルゴリズムの分類法を提案する。
次に、これらの4次元の問題に対処する最先端の研究について検討する。
論文 参考訳(メタデータ) (2020-03-10T05:42:44Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。