論文の概要: Quantizing data for distributed learning
- arxiv url: http://arxiv.org/abs/2012.07913v2
- Date: Wed, 24 Mar 2021 20:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 18:45:18.792863
- Title: Quantizing data for distributed learning
- Title(参考訳): 分散学習のためのデータの量子化
- Authors: Osama A. Hanna, Yahya H. Ezzeldin, Christina Fragouli, Suhas Diggavi
- Abstract要約: 通信制約がパフォーマンスのボトルネックを生じさせるネットワーク上のデータを活用することで、モデルをトレーニングする機械学習アプリケーションを検討する。
最近の多くのアプローチでは、更新の圧縮によってこのボトルネックを克服することを提案しているが、モデルが大きくなり、データセットのサイズも大きくなる。
本稿では,グラデーション更新よりもデータを定量化し,学習アプリケーションを支援することを提案する。
- 参考スコア(独自算出の注目度): 24.46948464551684
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We consider machine learning applications that train a model by leveraging
data distributed over a network, where communication constraints can create a
performance bottleneck. A number of recent approaches propose to overcome this
bottleneck through compression of gradient updates. However, as models become
larger, so does the size of the gradient updates. In this paper, we propose an
alternate approach, that quantizes data instead of gradients, and can support
learning over applications where the size of gradient updates is prohibitive.
Our approach combines aspects of: (1) sample selection; (2) dataset
quantization; and (3) gradient compensation. We analyze the convergence of the
proposed approach for smooth convex and non-convex objective functions and show
that we can achieve order optimal convergence rates with communication that
mostly depends on the data rather than the model (gradient) dimension. We use
our proposed algorithm to train ResNet models on the CIFAR-10 and ImageNet
datasets, and show that we can achieve an order of magnitude savings over
gradient compression methods.
- Abstract(参考訳): ネットワーク上に分散したデータを利用してモデルをトレーニングする機械学習アプリケーションについて検討する。
最近の多くのアプローチでは、勾配更新の圧縮によってこのボトルネックを克服することを提案している。
しかし、モデルが大きくなるにつれて、勾配の更新のサイズも大きくなる。
本稿では,勾配ではなくデータを定量化し,勾配更新のサイズが禁止されるアプリケーション上での学習を支援する手法を提案する。
提案手法は,(1)サンプル選択,(2)データセットの量子化,(3)勾配補正といった側面を組み合わせる。
本研究では,滑らかな凸および非凸対象関数に対する提案手法の収束を解析し,モデル(次数)次元よりもデータに依存する通信により,最適な収束率が得られることを示す。
我々は提案アルゴリズムを用いて,CIFAR-10およびImageNetデータセット上でResNetモデルをトレーニングし,勾配圧縮法よりも桁違いの節約が可能であることを示す。
関連論文リスト
- FLOPS: Forward Learning with OPtimal Sampling [1.694989793927645]
勾配に基づく計算手法は、最近、クエリとも呼ばれる前方通過のみによる学習に焦点が当てられている。
従来の前方学習はモンテカルロサンプリングによる正確な勾配推定のために各データポイントで膨大なクエリを消費する。
本稿では,評価精度と計算効率のバランスを良くするために,訓練中の各データに対して最適なクエリ数を割り当てることを提案する。
論文 参考訳(メタデータ) (2024-10-08T12:16:12Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - ScoreMix: A Scalable Augmentation Strategy for Training GANs with
Limited Data [93.06336507035486]
GAN(Generative Adversarial Networks)は通常、限られたトレーニングデータが利用できる場合、過度に適合する。
ScoreMixは、様々な画像合成タスクのための、新しくスケーラブルなデータ拡張手法である。
論文 参考訳(メタデータ) (2022-10-27T02:55:15Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Scaling Knowledge Graph Embedding Models [12.757685697180946]
本稿では,リンク予測のための知識グラフ埋め込みモデルの学習方法を提案する。
GNNベースの知識グラフ埋め込みモデルのスケーリングソリューションは、ベンチマークデータセットの16倍のスピードアップを実現しています。
論文 参考訳(メタデータ) (2022-01-08T08:34:52Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - Communication-Compressed Adaptive Gradient Method for Distributed
Nonconvex Optimization [21.81192774458227]
主なボトルネックの1つは、中央サーバとローカルワーカーの間の通信コストが大きいことである。
提案する分散学習フレームワークは,効果的な勾配勾配圧縮戦略を特徴とする。
論文 参考訳(メタデータ) (2021-11-01T04:54:55Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。