論文の概要: LASER: Linear Compression in Wireless Distributed Optimization
- arxiv url: http://arxiv.org/abs/2310.13033v2
- Date: Tue, 6 Feb 2024 15:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 20:03:34.816871
- Title: LASER: Linear Compression in Wireless Distributed Optimization
- Title(参考訳): RAER: 無線分散最適化における線形圧縮
- Authors: Ashok Vardhan Makkuva, Marco Bondaschi, Thijs Vogels, Martin Jaggi,
Hyeji Kim, Michael C. Gastpar
- Abstract要約: We introduced LASER: LineAr CompreSsion in WirEless DistRibuted Optimization。
LASERは勾配の固有の低ランク構造を利用し、ノイズチャネル上で効率よく伝送する。
コンピュータビジョンの挑戦やGPT言語モデリングのタスクにおいて、最先端の圧縮スキームよりも優れています。
- 参考スコア(独自算出の注目度): 43.84820103787979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-parallel SGD is the de facto algorithm for distributed optimization,
especially for large scale machine learning. Despite its merits, communication
bottleneck is one of its persistent issues. Most compression schemes to
alleviate this either assume noiseless communication links, or fail to achieve
good performance on practical tasks. In this paper, we close this gap and
introduce LASER: LineAr CompreSsion in WirEless DistRibuted Optimization. LASER
capitalizes on the inherent low-rank structure of gradients and transmits them
efficiently over the noisy channels. Whilst enjoying theoretical guarantees
similar to those of the classical SGD, LASER shows consistent gains over
baselines on a variety of practical benchmarks. In particular, it outperforms
the state-of-the-art compression schemes on challenging computer vision and GPT
language modeling tasks. On the latter, we obtain $50$-$64 \%$ improvement in
perplexity over our baselines for noisy channels.
- Abstract(参考訳): data-parallel sgdは分散最適化、特に大規模機械学習のためのデファクトアルゴリズムである。
その利点にもかかわらず、コミュニケーションのボトルネックは永続的な問題の1つだ。
これを緩和するほとんどの圧縮スキームは、ノイズレス通信リンクを仮定するか、実用的なタスクで良いパフォーマンスを達成できないかのいずれかである。
本稿では,このギャップを埋めて LASER: LineAr CompreSsion in WirEless DistRibuted Optimization を紹介する。
LASERは勾配の固有の低ランク構造を利用し、ノイズチャネル上で効率的に伝送する。
古典的なSGDと同様の理論的保証を享受する一方で、LASERは様々な実用的なベンチマークで基準線よりも一貫した利得を示している。
特に、コンピュータビジョンとGPT言語モデリングタスクに挑戦する最先端の圧縮スキームよりも優れている。
後者では、ノイズの多いチャネルのベースラインよりも難易度が50ドルから64ドルに向上する。
関連論文リスト
- Improving the Worst-Case Bidirectional Communication Complexity for
Nonconvex Distributed Optimization under Function Similarity [52.138754950594375]
ダウンリンク圧縮のための新しい手法であるMARINA-Pを導入する。
置換圧縮機を用いたMARINA-Pは、作業者数に応じてサーバ間通信の複雑さを向上できることを示す。
本稿では,MARINA-Pとアップリンク圧縮とモーメントステップを組み合わせた手法であるM3を導入する。
論文 参考訳(メタデータ) (2024-02-09T13:58:33Z) - SHOT: Suppressing the Hessian along the Optimization Trajectory for
Gradient-Based Meta-Learning [28.26143547479141]
SHOT(Suppressing the Hessian along the Optimization Trajectory)と呼ばれるアルゴリズムを導入する。
SHOTはベースラインモデルの計算複雑性をあまり増やさない。
本仮説を実証的に検証し,SHOTが対応するベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-04T11:43:08Z) - G-TRACER: Expected Sharpness Optimization [1.2183405753834562]
G-TRACERは、平坦なミニマムを求めることによって一般化を促進し、一般化ベイズ目標の自然な漸進的な降下に基づく最適化への近似として音理論的基礎を持つ。
本手法は,非正規化対象の局所最小値近傍に収束し,多数のベンチマークコンピュータビジョンとNLPデータセット上での競合性能を示す。
論文 参考訳(メタデータ) (2023-06-24T09:28:49Z) - Performance Embeddings: A Similarity-based Approach to Automatic
Performance Optimization [71.69092462147292]
パフォーマンス埋め込みは、アプリケーション間でパフォーマンスチューニングの知識伝達を可能にする。
本研究では, 深層ニューラルネットワーク, 密度およびスパース線形代数合成, および数値風速予測ステンシルのケーススタディにおいて, この伝達チューニング手法を実証する。
論文 参考訳(メタデータ) (2023-03-14T15:51:35Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Decentralized Composite Optimization with Compression [36.75785129001134]
非滑らかなコンポーネントを用いた分散合成最適化問題について検討する。
圧縮を伴う収束アンダーライン分散アルゴリズム Prox-LEAD を提案する。
我々の定理は、Prox-LEADが任意の圧縮精度で動作することを示している。
論文 参考訳(メタデータ) (2021-08-10T04:54:52Z) - Distributed Learning and Democratic Embeddings: Polynomial-Time Source
Coding Schemes Can Achieve Minimax Lower Bounds for Distributed Gradient
Descent under Communication Constraints [46.17631511884969]
我々は、n次元ユークリッド空間においてベクトルを圧縮する問題を考える。
数値化器の被覆効率が次元独立であるか、あるいは非常に弱い対数依存であるという意味では、民主主義的および民主的に近いソースコーディングスキームが(ほぼ)最適であることを示す。
分散最適化アルゴリズムDGD-DEFを提案する。このアルゴリズムは,提案した符号化戦略を用いて,(ほぼ)定数要素内における最小収束率を実現する。
論文 参考訳(メタデータ) (2021-03-13T00:04:11Z) - Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization [10.592277756185046]
大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-14T20:55:02Z) - PowerGossip: Practical Low-Rank Communication Compression in
Decentralized Deep Learning [62.440827696638664]
本稿では,近隣労働者間のモデル差を直接圧縮する簡単なアルゴリズムを提案する。
中央集権的なディープラーニングのためにPowerSGDにインスパイアされたこのアルゴリズムは、パワーステップを使用して、1ビットあたりの転送情報を最大化する。
論文 参考訳(メタデータ) (2020-08-04T09:14:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。