論文の概要: Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization
- arxiv url: http://arxiv.org/abs/2102.07245v1
- Date: Sun, 14 Feb 2021 20:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:21:05.535759
- Title: Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization
- Title(参考訳): Smoothness Matrices Beats Smoothness Constants: Better Communication Compression Techniques for Distributed Optimizations
- Authors: Mher Safaryan, Filip Hanzely, Peter Richt\'arik
- Abstract要約: 大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
- 参考スコア(独自算出の注目度): 10.592277756185046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale distributed optimization has become the default tool for the
training of supervised machine learning models with a large number of
parameters and training data. Recent advancements in the field provide several
mechanisms for speeding up the training, including {\em compressed
communication}, {\em variance reduction} and {\em acceleration}. However, none
of these methods is capable of exploiting the inherently rich data-dependent
smoothness structure of the local losses beyond standard smoothness constants.
In this paper, we argue that when training supervised models, {\em smoothness
matrices} -- information-rich generalizations of the ubiquitous smoothness
constants -- can and should be exploited for further dramatic gains, both in
theory and practice. In order to further alleviate the communication burden
inherent in distributed optimization, we propose a novel communication
sparsification strategy that can take full advantage of the smoothness matrices
associated with local losses. To showcase the power of this tool, we describe
how our sparsification technique can be adapted to three distributed
optimization algorithms -- DCGD, DIANA and ADIANA -- yielding significant
savings in terms of communication complexity. The new methods always outperform
the baselines, often dramatically so.
- Abstract(参考訳): 大規模分散最適化は、多数のパラメータとトレーニングデータを持つ教師付き機械学習モデルのトレーニングのためのデフォルトツールとなっている。
この分野の最近の進歩は、トレーニングをスピードアップするためのいくつかのメカニズムを提供し、例えば「圧縮通信」、「分散減少」および「加速」である。
しかし、これらの方法のいずれも、標準の平滑度定数以上の局所損失の本質的にリッチなデータ依存平滑性構造を利用することはできない。
本稿では,教師付きモデルの学習において,ユビキタスな滑らか性定数の情報豊富な一般化である {\em smoothness matrices} が,理論と実践の両方において,さらなる劇的な成果に活用可能であることを論じる。
分散最適化に固有の通信負担を軽減するため,局所的損失に伴う滑らか度行列を最大限に活用できる新しい通信スペーシフィケーション戦略を提案する。
このツールのパワーを紹介するために、sparsificationテクニックを3つの分散最適化アルゴリズム – dcgd、diana、adiana – に適用することで、通信の複雑さという面で大きな節約が得られます。
新しいメソッドは常にベースラインよりも優れています。
関連論文リスト
- MUSIC: Accelerated Convergence for Distributed Optimization With Inexact
and Exact Methods [6.800113478497425]
本稿では,MUSICと名づけられた高速化されたフレームワークを提案し,各エージェントが複数のローカル更新と1つの組み合わせをイテレーション毎に実行できるようにする。
そこで我々は, 線形収束を高速化し, 通信効率を向上する2つの新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2024-03-05T02:02:00Z) - Sparse Training for Federated Learning with Regularized Error Correction [11.639503711252663]
Federated Learning(FL)は、ディープニューラルネットワーク(DNN)モデルをトレーニングする上で大きなメリットがあるため、大きな関心を集めている。
FLAREは、FLプロセスへの埋め込みを正規化した更新モデルの累積引き込みによる新しいスパーストレーニング手法を提案する。
FLAREの性能は、多種多様な複雑なモデルに関する広範な実験を通じて検証され、顕著なスパーシリティレベル(現在の最先端の10倍以上の)を達成するとともに、精度が大幅に向上した。
論文 参考訳(メタデータ) (2023-12-21T12:36:53Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Efficient Augmentation for Imbalanced Deep Learning [8.38844520504124]
本研究では、畳み込みニューラルネットワークの内部表現である不均衡画像データについて検討する。
モデルの特徴埋め込みとテストセットの一般化ギャップを測定し、マイノリティクラスではそのギャップが広いことを示す。
この洞察により、不均衡なデータのための効率的な3相CNNトレーニングフレームワークを設計できる。
論文 参考訳(メタデータ) (2022-07-13T09:43:17Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Smoothness-Aware Quantization Techniques [0.2578242050187029]
我々は、$n$ブロックによるブロック量子化がシングルブロック量子化より優れていることを示す。
また、スムーズ性を考慮した量子化戦略が既存の量子化方式より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T11:30:05Z) - Fast Distributionally Robust Learning with Variance Reduced Min-Max
Optimization [85.84019017587477]
分散的ロバストな教師付き学習は、現実世界のアプリケーションのための信頼性の高い機械学習システムを構築するための重要なパラダイムとして登場している。
Wasserstein DRSLを解くための既存のアルゴリズムは、複雑なサブプロブレムを解くか、勾配を利用するのに失敗する。
我々はmin-max最適化のレンズを通してwaserstein drslを再検討し、スケーラブルで効率的に実装可能な超勾配アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-27T16:56:09Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。