論文の概要: Lossy Gradient Compression: How Much Accuracy Can One Bit Buy?
- arxiv url: http://arxiv.org/abs/2202.02812v1
- Date: Sun, 6 Feb 2022 16:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 18:46:20.167778
- Title: Lossy Gradient Compression: How Much Accuracy Can One Bit Buy?
- Title(参考訳): Lossy Gradient Compression: どれぐらいの精度で買うことができるのか?
- Authors: Sadaf Salehkalaibar and Stefano Rini
- Abstract要約: モデル更新の圧縮のための量化器の設計のための歪み尺度のクラスを提案する。
本稿では、ディープニューラルネットワーク(DNN)の分散トレーニングにおいて、この疑問に答えるために、レート歪みのアプローチをとる。
- 参考スコア(独自算出の注目度): 17.907068248604755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In federated learning (FL), a global model is trained at a Parameter Server
(PS) by aggregating model updates obtained from multiple remote learners.
Critically, the communication between the remote users and the PS is limited by
the available power for transmission, while the transmission from the PS to the
remote users can be considered unbounded. This gives rise to the distributed
learning scenario in which the updates from the remote learners have to be
compressed so as to meet communication rate constraints in the uplink
transmission toward the PS. For this problem, one would like to compress the
model updates so as to minimize the resulting loss in accuracy. In this paper,
we take a rate-distortion approach to answer this question for the distributed
training of a deep neural network (DNN). In particular, we define a measure of
the compression performance, the \emph{per-bit accuracy}, which addresses the
ultimate model accuracy that a bit of communication brings to the centralized
model. In order to maximize the per-bit accuracy, we consider modeling the
gradient updates at remote learners as a generalized normal distribution. Under
this assumption on the model update distribution, we propose a class of
distortion measures for the design of quantizer for the compression of the
model updates. We argue that this family of distortion measures, which we refer
to as "$M$-magnitude weighted $L_2$" norm, capture the practitioner intuition
in the choice of gradient compressor. Numerical simulations are provided to
validate the proposed approach.
- Abstract(参考訳): フェデレートラーニング(FL)では、複数の遠隔学習者から得られたモデル更新を集約することにより、グローバルモデルがパラメータサーバ(PS)で訓練される。
重要なことは、リモートユーザとPS間の通信は送信可能な電力によって制限され、PSからリモートユーザへの通信は非バウンドとみなすことができる。
これにより、PSへのアップリンク送信における通信速度制約を満たすために、遠隔学習者からの更新を圧縮する必要がある分散学習シナリオが生まれる。
この問題に対して、モデルの更新を圧縮して、結果の精度の損失を最小限に抑えることが望まれる。
本稿では、ディープニューラルネットワーク(DNN)の分散トレーニングにおいて、この疑問に答えるために、レート歪みのアプローチをとる。
特に、圧縮性能の測定値である \emph{per-bit accuracy} を定義し、通信のビットが集中型モデルにもたらした究極のモデルの精度に対処する。
ビット当たりの精度を最大化するために,遠隔学習者の勾配更新を一般化正規分布としてモデル化する。
このモデル更新分布の仮定の下で,モデル更新の圧縮のための量子化器の設計のための歪み測度のクラスを提案する。
我々は、この歪み測定のファミリを「M$-magnitudeed $L_2$」ノルムと呼び、勾配圧縮機の選択における実践者の直感を捉えている。
提案手法を検証するための数値シミュレーションを行う。
関連論文リスト
- Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression [10.233937665979694]
DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。
このプロセスの重大なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。
本稿では,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T05:55:18Z) - Fed-CVLC: Compressing Federated Learning Communications with
Variable-Length Codes [54.18186259484828]
フェデレートラーニング(FL)パラダイムでは、パラメータサーバ(PS)がモデル収集、更新アグリゲーション、複数のラウンドでのモデル分散のために、分散参加クライアントと同時通信する。
FLの圧縮には可変長が有用であることを示す。
本稿では,Fed-CVLC(Federated Learning Compression with Variable-Length Codes)を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:25:21Z) - Just One Byte (per gradient): A Note on Low-Bandwidth Decentralized
Language Model Finetuning Using Shared Randomness [86.61582747039053]
分散環境での言語モデルトレーニングは、交換の通信コストによって制限される。
分散微調整を低帯域幅で行うために,共有ランダムネスを用いた最近の作業を拡張した。
論文 参考訳(メタデータ) (2023-06-16T17:59:51Z) - M22: A Communication-Efficient Algorithm for Federated Learning Inspired
by Rate-Distortion [19.862336286338564]
連合学習では、通信制約による精度の損失を最小限に抑えるために、モデル更新を圧縮する必要がある。
本稿では、勾配圧縮に対する速度歪みに着想を得たEmph$bf M$-magnitudeed $L_bf 2$ distortion + $bf 2$ degrees of freedom' (M22)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-23T04:40:01Z) - Optimizing the Communication-Accuracy Trade-off in Federated Learning
with Rate-Distortion Theory [1.5771347525430772]
連合学習における重要なボトルネックは、クライアントデバイスから中央サーバにモデル更新を送信する際のネットワーク通信コストである。
本手法は,その経験的分布を考慮し,量子化された更新を適切な普遍コードで符号化する。
量子化は誤差をもたらすので、平均的な全勾配と歪みにおける所望のトレードオフを最適化することで量子化レベルを選択する。
論文 参考訳(メタデータ) (2022-01-07T20:17:33Z) - DNN gradient lossless compression: Can GenNorm be the answer? [17.37160669785566]
勾配圧縮は多くの分散ディープニューラルネットワーク(DNN)トレーニングシナリオに関係している。
実用的関心を持ついくつかのネットワークでは、勾配成分は一般化正規分布(GenNorm)を持つようにうまくモデル化することができる。
論文 参考訳(メタデータ) (2021-11-15T08:33:10Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Slashing Communication Traffic in Federated Learning by Transmitting
Clustered Model Updates [12.660500431713336]
Federated Learning(FL)は、複数のクライアントが共同で学習モデルをトレーニングできる、新たな分散型学習フレームワークである。
クライアントとパラメータサーバ間のインターネットを介してモデル更新を交換することで、通信トラフィックが増大する可能性がある。
本研究では,ソフトウェアクラスタリング(MUCSC)によるモデル更新圧縮を考案し,クライアントとPS間で送信されるモデル更新を圧縮する。
論文 参考訳(メタデータ) (2021-05-10T07:15:49Z) - Over-the-Air Federated Learning from Heterogeneous Data [107.05618009955094]
フェデレートラーニング(Federated Learning、FL)は、集中型モデルの分散ラーニングのためのフレームワークである。
我々は,共通局所勾配勾配勾配(SGD)FLアルゴリズムを強化するコンバージェント OTA FL (COTAF) アルゴリズムを開発した。
我々は,COTAFにより誘導されるプリコーディングが,OTA FLを用いて訓練されたモデルの収束率と精度を顕著に向上させることを示す。
論文 参考訳(メタデータ) (2020-09-27T08:28:25Z) - UVeQFed: Universal Vector Quantization for Federated Learning [179.06583469293386]
フェデレートラーニング(FL)は、ユーザがプライベートラベル付きデータを共有することなく、そのような学習モデルをトレーニングする、新たなアプローチである。
FLでは、各ユーザが学習モデルのコピーをローカルにトレーニングする。その後、サーバは個々の更新を収集し、それらをグローバルモデルに集約する。
普遍ベクトル量子化法をFLと組み合わせることで、訓練されたモデルの圧縮が最小歪みのみを誘導する分散トレーニングシステムが得られることを示す。
論文 参考訳(メタデータ) (2020-06-05T07:10:22Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。