論文の概要: LocalNewton: Reducing Communication Bottleneck for Distributed Learning
- arxiv url: http://arxiv.org/abs/2105.07320v1
- Date: Sun, 16 May 2021 00:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:34:10.117544
- Title: LocalNewton: Reducing Communication Bottleneck for Distributed Learning
- Title(参考訳): LocalNewton: 分散学習のための通信基盤の削減
- Authors: Vipul Gupta, Avishek Ghosh, Michal Derezinski, Rajiv Khanna, Kannan
Ramchandran, Michael Mahoney
- Abstract要約: 局所平均化を伴う分散2次アルゴリズムであるlocalnewtonを提案する。
LocalNewtonでは、ワーカマシンが適切な2階降下方向を見つけることで、イテレーション毎にモデルを更新する。
LocalNewtonは、(マスターとワーカーの間の)コミュニケーションラウンドの60%以下で、エンドツーエンドの実行時間の40%以下であることを示す。
- 参考スコア(独自算出の注目度): 40.68791237593682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To address the communication bottleneck problem in distributed optimization
within a master-worker framework, we propose LocalNewton, a distributed
second-order algorithm with local averaging. In LocalNewton, the worker
machines update their model in every iteration by finding a suitable
second-order descent direction using only the data and model stored in their
own local memory. We let the workers run multiple such iterations locally and
communicate the models to the master node only once every few (say L)
iterations. LocalNewton is highly practical since it requires only one
hyperparameter, the number L of local iterations. We use novel matrix
concentration-based techniques to obtain theoretical guarantees for
LocalNewton, and we validate them with detailed empirical evaluation. To
enhance practicability, we devise an adaptive scheme to choose L, and we show
that this reduces the number of local iterations in worker machines between two
model synchronizations as the training proceeds, successively refining the
model quality at the master. Via extensive experiments using several real-world
datasets with AWS Lambda workers and an AWS EC2 master, we show that
LocalNewton requires fewer than 60% of the communication rounds (between master
and workers) and less than 40% of the end-to-end running time, compared to
state-of-the-art algorithms, to reach the same training~loss.
- Abstract(参考訳): マスタ-ワーカー・フレームワークにおける分散最適化における通信ボトルネック問題に対処するため,ローカル平均化を用いた分散2次アルゴリズムであるLocalNewtonを提案する。
LocalNewtonでは、ワーカマシンが各イテレーションでモデルを更新し、自身のローカルメモリに格納されているデータとモデルのみを使用して適切な2階降下方向を見つける。
ワーカがこのようなイテレーションを複数ローカルに実行して,数回(例えばl)のイテレーションでのみ,マスタノードにモデルを伝えるようにしています。
LocalNewtonは非常に実用的であり、1つのハイパーパラメータ、ローカルイテレーションの数 Lしか必要としない。
我々は,新しいマトリックス濃度に基づく手法を用いて局所ニュートンの理論的保証を行い,詳細な実験評価を行った。
実用性を高めるため,Lを選択する適応型スキームを考案し,トレーニングが進むにつれて2つのモデル同期間の作業機械の局所的なイテレーション数を削減し,マスタのモデル品質を連続的に改善することを示した。
AWS LambdaのワーカとAWS EC2のマスタを使って、複数の実世界のデータセットを使用して広範な実験を行った結果、LocalNewtonでは、通信ラウンド(マスタとワーカ)の60%未満と、最先端のアルゴリズムと比較して、エンドツーエンドの実行時間の40%未満を必要としていることがわかった。
関連論文リスト
- Federated Learning on Non-iid Data via Local and Global Distillation [25.397058380098816]
我々は,FedND:Federated Learning with noise distillationを提案する。
クライアントでは,局所モデルを学習するための自己蒸留法を提案する。
サーバでは、各クライアントに対してノイズの多いサンプルを生成し、それを他のクライアントを蒸留するために使用します。
実験結果から,このアルゴリズムは最先端の手法よりも通信効率がよいことがわかった。
論文 参考訳(メタデータ) (2023-06-26T06:14:01Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - Quantum-Inspired Tempering for Ground State Approximation using
Artificial Neural Networks [0.0]
そこで本研究では,局所的なミニマムからの脱出を容易にする並列テンパリング手法を提案する。
量子並列テンパリングによるトレーニングの強化は、問題インスタンスの基底状態に対する良い近似を見つけるのに有用であることを示す。
論文 参考訳(メタデータ) (2022-10-20T16:50:32Z) - STEM: A Stochastic Two-Sided Momentum Algorithm Achieving Near-Optimal
Sample and Communication Complexities for Federated Learning [58.6792963686231]
フェデレートラーニング(FL)とは、複数のワーカノード(WN)がローカルデータを用いてジョイントモデルを構築するパラダイムを指す。
WNの最小更新方向、最初のミニバッチサイズ、ローカル更新頻度をどうやって選択するかは明らかになっていない。
局所的な更新頻度と局所的なミニサイズとの間にはトレードオフ曲線があることを示し、上記の複雑さを維持できることを示す。
論文 参考訳(メタデータ) (2021-06-19T06:13:45Z) - Clustered Federated Learning via Generalized Total Variation
Minimization [83.26141667853057]
本研究では,分散ネットワーク構造を持つローカルデータセットの局所的(あるいはパーソナライズされた)モデルを学習するための最適化手法について検討する。
我々の主要な概念的貢献は、総変動最小化(GTV)としてフェデレーション学習を定式化することである。
私たちのアルゴリズムの主な貢献は、完全に分散化されたフェデレーション学習アルゴリズムです。
論文 参考訳(メタデータ) (2021-05-26T18:07:19Z) - Privacy-Preserving Object Detection & Localization Using Distributed
Machine Learning: A Case Study of Infant Eyeblink Conditioning [1.3022864665437273]
オブジェクト検出によく使用される2つのアルゴリズムのスケーラブルな分散学習バージョンについて検討する。
医療分野における両アルゴリズムの適用について,心理学・神経科学のパラダイムを用いて検討した。
論文 参考訳(メタデータ) (2020-10-14T17:33:28Z) - A Low Complexity Decentralized Neural Net with Centralized Equivalence
using Layer-wise Learning [49.15799302636519]
我々は、分散処理ノード(労働者)で最近提案された大規模ニューラルネットワークをトレーニングするために、低複雑性分散学習アルゴリズムを設計する。
我々の設定では、トレーニングデータは作業者間で分散されるが、プライバシやセキュリティ上の懸念からトレーニングプロセスでは共有されない。
本研究では,データが一箇所で利用可能であるかのように,等価な学習性能が得られることを示す。
論文 参考訳(メタデータ) (2020-09-29T13:08:12Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z) - Fast local linear regression with anchor regularization [21.739281173516247]
高速アンカー正規化局所線形法(FALL)と呼ばれる,単純で効果的な局所モデルトレーニングアルゴリズムを提案する。
合成および実世界のデータセットの実験を通じて、FALLは最先端のネットワークLassoアルゴリズムと精度の面で好適に比較できることを示した。
論文 参考訳(メタデータ) (2020-02-21T10:03:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。