論文の概要: Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization
- arxiv url: http://arxiv.org/abs/2102.07245v1
- Date: Sun, 14 Feb 2021 20:55:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:21:05.535759
- Title: Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization
- Title(参考訳): Smoothness Matrices Beats Smoothness Constants: Better Communication Compression Techniques for Distributed Optimizations
- Authors: Mher Safaryan, Filip Hanzely, Peter Richt\'arik
- Abstract要約: 大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
- 参考スコア(独自算出の注目度): 10.592277756185046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large scale distributed optimization has become the default tool for the
training of supervised machine learning models with a large number of
parameters and training data. Recent advancements in the field provide several
mechanisms for speeding up the training, including {\em compressed
communication}, {\em variance reduction} and {\em acceleration}. However, none
of these methods is capable of exploiting the inherently rich data-dependent
smoothness structure of the local losses beyond standard smoothness constants.
In this paper, we argue that when training supervised models, {\em smoothness
matrices} -- information-rich generalizations of the ubiquitous smoothness
constants -- can and should be exploited for further dramatic gains, both in
theory and practice. In order to further alleviate the communication burden
inherent in distributed optimization, we propose a novel communication
sparsification strategy that can take full advantage of the smoothness matrices
associated with local losses. To showcase the power of this tool, we describe
how our sparsification technique can be adapted to three distributed
optimization algorithms -- DCGD, DIANA and ADIANA -- yielding significant
savings in terms of communication complexity. The new methods always outperform
the baselines, often dramatically so.
- Abstract(参考訳): 大規模分散最適化は、多数のパラメータとトレーニングデータを持つ教師付き機械学習モデルのトレーニングのためのデフォルトツールとなっている。
この分野の最近の進歩は、トレーニングをスピードアップするためのいくつかのメカニズムを提供し、例えば「圧縮通信」、「分散減少」および「加速」である。
しかし、これらの方法のいずれも、標準の平滑度定数以上の局所損失の本質的にリッチなデータ依存平滑性構造を利用することはできない。
本稿では,教師付きモデルの学習において,ユビキタスな滑らか性定数の情報豊富な一般化である {\em smoothness matrices} が,理論と実践の両方において,さらなる劇的な成果に活用可能であることを論じる。
分散最適化に固有の通信負担を軽減するため,局所的損失に伴う滑らか度行列を最大限に活用できる新しい通信スペーシフィケーション戦略を提案する。
このツールのパワーを紹介するために、sparsificationテクニックを3つの分散最適化アルゴリズム – dcgd、diana、adiana – に適用することで、通信の複雑さという面で大きな節約が得られます。
新しいメソッドは常にベースラインよりも優れています。
関連論文リスト
- High-Dimensional Distributed Sparse Classification with Scalable Communication-Efficient Global Updates [50.406127962933915]
我々はコミュニケーション効率のよい分散ロジスティック回帰モデルを学ぶことができる問題に対する解決策を開発する。
実験では、いくつかの分散更新ステップだけで、分散アルゴリズムよりも精度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-07-08T19:34:39Z) - ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models [14.310720048047136]
ALPSは,演算子分割法と事前条件付き勾配共役型後処理法を用いて,プルーニング問題に対処する最適化ベースのフレームワークである。
提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。
OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。
論文 参考訳(メタデータ) (2024-06-12T02:57:41Z) - Optimizing the Optimal Weighted Average: Efficient Distributed Sparse Classification [50.406127962933915]
ACOWAは、小さなランタイムの増加とともに、顕著に優れた近似品質を達成するための追加の通信を可能にする。
その結果、ACOWAは経験的リスク最小化に忠実で、他の分散アルゴリズムよりもかなり高い精度で解が得られることがわかった。
論文 参考訳(メタデータ) (2024-06-03T19:43:06Z) - Federated Optimization with Doubly Regularized Drift Correction [20.30761752651984]
フェデレートラーニング(Federated Learning)は、データをローカライズしながら、分散デバイス間で機械学習モデルをトレーニングする分散最適化パラダイムである。
以前の研究では、ドリフトを緩和するための様々な戦略が提案されていたが、バニラ勾配よりも通信計算のトレードオフが一様に改善されたことは示されていない。
我々は, (i) DANEがヘッセン類似性制約の下で所望の通信低減を実現することを示し, (ii) 任意の局所解法をサポートする拡張DANE+を提案する。
我々は,局所的な計算複雑性を改善し,DANE/Dと同一の通信複雑性を保持する新しい手法であるFedRedを提案する。
論文 参考訳(メタデータ) (2024-04-12T12:57:43Z) - MUSIC: Accelerated Convergence for Distributed Optimization With Inexact
and Exact Methods [6.800113478497425]
本稿では,MUSICと名づけられた高速化されたフレームワークを提案し,各エージェントが複数のローカル更新と1つの組み合わせをイテレーション毎に実行できるようにする。
そこで我々は, 線形収束を高速化し, 通信効率を向上する2つの新しいアルゴリズムを考案した。
論文 参考訳(メタデータ) (2024-03-05T02:02:00Z) - CORE: Common Random Reconstruction for Distributed Optimization with
Provable Low Communication Complexity [110.50364486645852]
コミュニケーションの複雑さは、トレーニングをスピードアップし、マシン番号をスケールアップする上で、大きなボトルネックになっています。
本稿では,機械間で送信される情報を圧縮するための共通Om REOmを提案する。
論文 参考訳(メタデータ) (2023-09-23T08:45:27Z) - Distributed Adversarial Training to Robustify Deep Neural Networks at
Scale [100.19539096465101]
現在のディープニューラルネットワーク(DNN)は、入力に対する敵の摂動が分類を変更したり操作したりする敵の攻撃に対して脆弱である。
このような攻撃を防御するために、敵の訓練(AT)として知られる効果的なアプローチが、堅牢な訓練を緩和するために示されている。
複数のマシンにまたがって実装された大規模バッチ対逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-13T15:39:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Optimization on manifolds: A symplectic approach [127.54402681305629]
本稿では、最適化問題を解くための一般的な枠組みとして、ディラックの制約付きハミルトン系理論の散逸拡張を提案する。
我々の(加速された)アルゴリズムのクラスは単純で効率的なだけでなく、幅広い文脈にも適用できる。
論文 参考訳(メタデータ) (2021-07-23T13:43:34Z) - Smoothness-Aware Quantization Techniques [0.2578242050187029]
我々は、$n$ブロックによるブロック量子化がシングルブロック量子化より優れていることを示す。
また、スムーズ性を考慮した量子化戦略が既存の量子化方式より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-07T11:30:05Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。