論文の概要: rTop-k: A Statistical Estimation Approach to Distributed SGD
- arxiv url: http://arxiv.org/abs/2005.10761v2
- Date: Wed, 2 Dec 2020 21:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:31:10.503525
- Title: rTop-k: A Statistical Estimation Approach to Distributed SGD
- Title(参考訳): rTop-k:分散SGDの統計的推定手法
- Authors: Leighton Pate Barnes, Huseyin A. Inan, Berivan Isik, and Ayfer Ozgur
- Abstract要約: トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
- 参考スコア(独自算出の注目度): 5.197307534263253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large communication cost for exchanging gradients between different nodes
significantly limits the scalability of distributed training for large-scale
learning models. Motivated by this observation, there has been significant
recent interest in techniques that reduce the communication cost of distributed
Stochastic Gradient Descent (SGD), with gradient sparsification techniques such
as top-k and random-k shown to be particularly effective. The same observation
has also motivated a separate line of work in distributed statistical
estimation theory focusing on the impact of communication constraints on the
estimation efficiency of different statistical models. The primary goal of this
paper is to connect these two research lines and demonstrate how statistical
estimation models and their analysis can lead to new insights in the design of
communication-efficient training techniques. We propose a simple statistical
estimation model for the stochastic gradients which captures the sparsity and
skewness of their distribution. The statistically optimal communication scheme
arising from the analysis of this model leads to a new sparsification technique
for SGD, which concatenates random-k and top-k, considered separately in the
prior literature. We show through extensive experiments on both image and
language domains with CIFAR-10, ImageNet, and Penn Treebank datasets that the
concatenated application of these two sparsification methods consistently and
significantly outperforms either method applied alone.
- Abstract(参考訳): 異なるノード間の勾配を交換するための通信コストは、大規模学習モデルの分散トレーニングのスケーラビリティを著しく制限する。
この観察に動機づけられた最近の研究では、分散確率勾配降下(sgd)の通信コストを削減し、top-kやrandom-kのような勾配スパーシフィケーション技術が特に効果的であることが示されている。
同じ観察は、異なる統計モデルの推定効率に対するコミュニケーション制約の影響に焦点を当てた分散統計推定理論における別の作業線も引き起こしている。
本研究の主な目的は,これらの2つの研究線を接続し,統計的推定モデルとその分析がコミュニケーション効率向上のためのトレーニング手法の設計に新たな洞察をもたらすことを実証することである。
本研究では,分布の疎さと歪さを捉える確率勾配の簡易な統計モデルを提案する。
このモデルの解析から生じる統計的に最適なコミュニケーションスキームは、以前の文献では別々に考慮されるランダムkとトップkを結合するsgdの新しいスパーシフィケーション技術をもたらす。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いた画像領域と言語領域の広範な実験により, これら2つのスパーシフィケーション手法の整合的適用が一貫し, それぞれ単独で適用した手法よりも著しく優れていることを示す。
関連論文リスト
- On conditional diffusion models for PDE simulations [53.01911265639582]
スパース観測の予測と同化のためのスコアベース拡散モデルについて検討した。
本稿では,予測性能を大幅に向上させる自動回帰サンプリング手法を提案する。
また,条件付きスコアベースモデルに対する新たなトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-21T18:31:04Z) - MITA: Bridging the Gap between Model and Data for Test-time Adaptation [68.62509948690698]
テスト時間適応(TTA)は、モデルの一般化性を高めるための有望なパラダイムとして登場した。
本稿では,Met-In-The-MiddleをベースとしたMITAを提案する。
論文 参考訳(メタデータ) (2024-10-12T07:02:33Z) - Accelerated Stochastic ExtraGradient: Mixing Hessian and Gradient Similarity to Reduce Communication in Distributed and Federated Learning [50.382793324572845]
分散コンピューティングはデバイス間の通信を伴うため、効率性とプライバシという2つの重要な問題を解決する必要がある。
本稿では,データ類似性とクライアントサンプリングのアイデアを取り入れた新しい手法について分析する。
プライバシー問題に対処するために,付加雑音の手法を適用し,提案手法の収束への影響を解析する。
論文 参考訳(メタデータ) (2024-09-22T00:49:10Z) - Reducing Spurious Correlation for Federated Domain Generalization [15.864230656989854]
オープンワールドのシナリオでは、グローバルモデルは特定のメディアによってキャプチャされた全く新しいドメインデータをうまく予測するのに苦労する可能性がある。
既存の手法はまだこの問題に対処するために、サンプルとラベルの間の強い統計的相関に頼っている。
ローカルレベルとグローバルレベルでの全体的な最適化フレームワークであるFedCDを紹介します。
論文 参考訳(メタデータ) (2024-07-27T05:06:31Z) - Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - A Bayesian Methodology for Estimation for Sparse Canonical Correlation [0.0]
標準相関解析(CCA)は、データセット間の関係を識別する統計手法である。
ScSCCAは、異なるデータモダリティ間の相互関係の堅牢なモデリングを目的とした、急速に発展する方法論分野である。
ベイズ無限因子モデルを用いて,ロバストな推定を実現する新しいSCSCCA手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T15:14:25Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Depersonalized Federated Learning: Tackling Statistical Heterogeneity by
Alternating Stochastic Gradient Descent [6.394263208820851]
フェデレート・ラーニング(FL)は、デバイスがデータ共有なしでインテリジェントな推論のために共通の機械学習(ML)モデルをトレーニングすることを可能にする。
様々な共役者によって保持される生データは、常に不特定に分散される。
本稿では,このプロセスのデスピードにより統計的に大幅に最適化できる新しいFLを提案する。
論文 参考訳(メタデータ) (2022-10-07T10:30:39Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - Achieving Efficiency in Black Box Simulation of Distribution Tails with
Self-structuring Importance Samplers [1.6114012813668934]
本稿では,線形プログラムや整数線形プログラム,ピースワイド線形・二次目的,ディープニューラルネットワークで指定された特徴マップなど,多種多様なツールでモデル化されたパフォーマンス指標の分布を推定する,新しいImportance Smpling(IS)方式を提案する。
論文 参考訳(メタデータ) (2021-02-14T03:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。