論文の概要: rTop-k: A Statistical Estimation Approach to Distributed SGD
- arxiv url: http://arxiv.org/abs/2005.10761v2
- Date: Wed, 2 Dec 2020 21:26:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:31:10.503525
- Title: rTop-k: A Statistical Estimation Approach to Distributed SGD
- Title(参考訳): rTop-k:分散SGDの統計的推定手法
- Authors: Leighton Pate Barnes, Huseyin A. Inan, Berivan Isik, and Ayfer Ozgur
- Abstract要約: トップkとランダムkのスパーシフィケーション手法は, いずれの手法も単独で適用した場合, 連続的に, 顕著に優れていることを示す。
本稿では,空間性および統計的に最適な通信方式を捉える勾配の簡易な統計的推定モデルを提案する。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いて画像領域と言語領域に関する広範な実験を行い、これらの2つのスパーシフィケーション手法のスキュードな適用は、いずれの手法も単独で適用した場合に著しく優れることを示した。
- 参考スコア(独自算出の注目度): 5.197307534263253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The large communication cost for exchanging gradients between different nodes
significantly limits the scalability of distributed training for large-scale
learning models. Motivated by this observation, there has been significant
recent interest in techniques that reduce the communication cost of distributed
Stochastic Gradient Descent (SGD), with gradient sparsification techniques such
as top-k and random-k shown to be particularly effective. The same observation
has also motivated a separate line of work in distributed statistical
estimation theory focusing on the impact of communication constraints on the
estimation efficiency of different statistical models. The primary goal of this
paper is to connect these two research lines and demonstrate how statistical
estimation models and their analysis can lead to new insights in the design of
communication-efficient training techniques. We propose a simple statistical
estimation model for the stochastic gradients which captures the sparsity and
skewness of their distribution. The statistically optimal communication scheme
arising from the analysis of this model leads to a new sparsification technique
for SGD, which concatenates random-k and top-k, considered separately in the
prior literature. We show through extensive experiments on both image and
language domains with CIFAR-10, ImageNet, and Penn Treebank datasets that the
concatenated application of these two sparsification methods consistently and
significantly outperforms either method applied alone.
- Abstract(参考訳): 異なるノード間の勾配を交換するための通信コストは、大規模学習モデルの分散トレーニングのスケーラビリティを著しく制限する。
この観察に動機づけられた最近の研究では、分散確率勾配降下(sgd)の通信コストを削減し、top-kやrandom-kのような勾配スパーシフィケーション技術が特に効果的であることが示されている。
同じ観察は、異なる統計モデルの推定効率に対するコミュニケーション制約の影響に焦点を当てた分散統計推定理論における別の作業線も引き起こしている。
本研究の主な目的は,これらの2つの研究線を接続し,統計的推定モデルとその分析がコミュニケーション効率向上のためのトレーニング手法の設計に新たな洞察をもたらすことを実証することである。
本研究では,分布の疎さと歪さを捉える確率勾配の簡易な統計モデルを提案する。
このモデルの解析から生じる統計的に最適なコミュニケーションスキームは、以前の文献では別々に考慮されるランダムkとトップkを結合するsgdの新しいスパーシフィケーション技術をもたらす。
CIFAR-10, ImageNet, および Penn Treebank のデータセットを用いた画像領域と言語領域の広範な実験により, これら2つのスパーシフィケーション手法の整合的適用が一貫し, それぞれ単独で適用した手法よりも著しく優れていることを示す。
関連論文リスト
- Aggregation Weighting of Federated Learning via Generalization Bound
Estimation [65.8630966842025]
フェデレートラーニング(FL)は通常、サンプル比率によって決定される重み付けアプローチを使用して、クライアントモデルパラメータを集約する。
上記の重み付け法を,各局所モデルの一般化境界を考慮した新しい戦略に置き換える。
論文 参考訳(メタデータ) (2023-11-10T08:50:28Z) - A Bayesian Methodology for Estimation for Sparse Canonical Correlation [0.0]
標準相関解析(CCA)は、データセット間の関係を識別する統計手法である。
ScSCCAは、異なるデータモダリティ間の相互関係の堅牢なモデリングを目的とした、急速に発展する方法論分野である。
ベイズ無限因子モデルを用いて,ロバストな推定を実現する新しいSCSCCA手法を提案する。
論文 参考訳(メタデータ) (2023-10-30T15:14:25Z) - Towards a Better Theoretical Understanding of Independent Subnetwork
Training [2.2147691173934967]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Depersonalized Federated Learning: Tackling Statistical Heterogeneity by
Alternating Stochastic Gradient Descent [6.394263208820851]
フェデレート・ラーニング(FL)は、デバイスがデータ共有なしでインテリジェントな推論のために共通の機械学習(ML)モデルをトレーニングすることを可能にする。
様々な共役者によって保持される生データは、常に不特定に分散される。
本稿では,このプロセスのデスピードにより統計的に大幅に最適化できる新しいFLを提案する。
論文 参考訳(メタデータ) (2022-10-07T10:30:39Z) - Fundamental Limits of Communication Efficiency for Model Aggregation in
Distributed Learning: A Rate-Distortion Approach [54.311495894129585]
本研究では,分散学習におけるモデルアグリゲーションの通信コストの限界について,速度歪みの観点から検討する。
SignSGDでは,ワーカノード間の相関を利用した通信利得が重要であることがわかった。
論文 参考訳(メタデータ) (2022-06-28T13:10:40Z) - How Much is Enough? A Study on Diffusion Times in Score-based Generative
Models [76.76860707897413]
現在のベストプラクティスは、フォワードダイナミクスが既知の単純なノイズ分布に十分に近づくことを確実にするために大きなTを提唱している。
本稿では, 理想とシミュレーションされたフォワードダイナミクスのギャップを埋めるために補助モデルを用いて, 標準的な逆拡散過程を導出する方法について述べる。
論文 参考訳(メタデータ) (2022-06-10T15:09:46Z) - Accuracy on the Line: On the Strong Correlation Between
Out-of-Distribution and In-Distribution Generalization [89.73665256847858]
分布外性能は,広範囲なモデルと分布シフトに対する分布内性能と強く相関していることを示す。
具体的には,CIFAR-10 と ImageNet の変種に対する分布内分布と分布外分布性能の強い相関関係を示す。
また,CIFAR-10-Cと組織分類データセットCamelyon17-WILDSの合成分布の変化など,相関が弱いケースについても検討した。
論文 参考訳(メタデータ) (2021-07-09T19:48:23Z) - Achieving Efficiency in Black Box Simulation of Distribution Tails with
Self-structuring Importance Samplers [1.6114012813668934]
本稿では,線形プログラムや整数線形プログラム,ピースワイド線形・二次目的,ディープニューラルネットワークで指定された特徴マップなど,多種多様なツールでモデル化されたパフォーマンス指標の分布を推定する,新しいImportance Smpling(IS)方式を提案する。
論文 参考訳(メタデータ) (2021-02-14T03:37:22Z) - Learning Expectation of Label Distribution for Facial Age and
Attractiveness Estimation [65.5880700862751]
本稿では,2つの最先端手法(Ranking-CNNとDLDL)の本質的な関係を解析し,ランキング法が実際にラベル分布を暗黙的に学習していることを示す。
軽量なネットワークアーキテクチャを提案し、顔属性の分布と回帰属性の値を共同で学習できる統一的なフレームワークを提案する。
提案手法は,36$times$パラメータが小さく,3$times$が顔の年齢/魅力度推定における高速な推論速度を持つ単一モデルを用いて,新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2020-07-03T15:46:53Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。