論文の概要: Smoothness-Aware Quantization Techniques
- arxiv url: http://arxiv.org/abs/2106.03524v1
- Date: Mon, 7 Jun 2021 11:30:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 17:31:45.564561
- Title: Smoothness-Aware Quantization Techniques
- Title(参考訳): 平滑性を考慮した量子化技術
- Authors: Bokun Wang, Mher Safaryan, Peter Richt\'arik
- Abstract要約: 我々は、$n$ブロックによるブロック量子化がシングルブロック量子化より優れていることを示す。
また、スムーズ性を考慮した量子化戦略が既存の量子化方式より優れていることを示す。
- 参考スコア(独自算出の注目度): 0.2578242050187029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed machine learning has become an indispensable tool for training
large supervised machine learning models. To address the high communication
costs of distributed training, which is further exacerbated by the fact that
modern highly performing models are typically overparameterized, a large body
of work has been devoted in recent years to the design of various compression
strategies, such as sparsification and quantization, and optimization
algorithms capable of using them. Recently, Safaryan et al (2021) pioneered a
dramatically different compression design approach: they first use the local
training data to form local {\em smoothness matrices}, and then propose to
design a compressor capable of exploiting the smoothness information contained
therein. While this novel approach leads to substantial savings in
communication, it is limited to sparsification as it crucially depends on the
linearity of the compression operator. In this work, we resolve this problem by
extending their smoothness-aware compression strategy to arbitrary unbiased
compression operators, which also includes sparsification. Specializing our
results to quantization, we observe significant savings in communication
complexity compared to standard quantization. In particular, we show
theoretically that block quantization with $n$ blocks outperforms single block
quantization, leading to a reduction in communication complexity by an
$\mathcal{O}(n)$ factor, where $n$ is the number of nodes in the distributed
system. Finally, we provide extensive numerical evidence that our
smoothness-aware quantization strategies outperform existing quantization
schemes as well the aforementioned smoothness-aware sparsification strategies
with respect to all relevant success measures: the number of iterations, the
total amount of bits communicated, and wall-clock time.
- Abstract(参考訳): 分散機械学習は、大規模な教師付き機械学習モデルのトレーニングに欠かせないツールとなっている。
現代のハイパフォーマンスモデルが一般的に過剰パラメータ化されているという事実によりさらに悪化する分散トレーニングの高コミュニケーションコストに対処するため、近年、スパーシフィケーションや量子化といった様々な圧縮戦略の設計や、それらを使用する最適化アルゴリズムに多くの作業が費やされている。
最近、Safaryan et al (2021) は、局所的なトレーニングデータを用いて局所的な滑らか度行列を形成するという、劇的に異なる圧縮設計アプローチを開拓し、次に、その滑らか度情報を活用できる圧縮機の設計を提案する。
この新しいアプローチは通信の大幅な節約につながるが、圧縮演算子の線形性に大きく依存するため、スパーシフィケーションに限定される。
本研究では,その平滑性を考慮した圧縮戦略を任意の非バイアス圧縮演算子に拡張することで,この問題を解消する。
その結果を量子化に特化することで、標準量子化と比較して通信複雑性の大幅な削減が観察できる。
特に、n$ブロックのブロック量子化は単一のブロック量子化よりも優れており、通信の複雑さを$\mathcal{o}(n)$因子で減少させ、ここで$n$は分散システムのノード数である。
最後に,我々のスムーズネス対応量子化戦略が既存の量子化スキームを上回り,上記のスムーズネス対応スペーシフィケーション戦略が関連するすべての成功策 – イテレーション数,通信ビットの総量,壁時計時間 – に対して優れていることを示す。
関連論文リスト
- Differential error feedback for communication-efficient decentralized learning [48.924131251745266]
本稿では,差分量子化と誤りフィードバックをブレンドする分散通信効率学習手法を提案する。
その結果,平均二乗誤差と平均ビットレートの両面において通信効率が安定であることが示唆された。
その結果、小さなステップサイズで有限ビットの場合には、圧縮がない場合に達成可能な性能が得られることが判明した。
論文 参考訳(メタデータ) (2024-06-26T15:11:26Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Towards Optimal Compression: Joint Pruning and Quantization [1.191194620421783]
本稿では,FITCompressについて紹介する。FITCompressは層単位での混合精度の量子化と非構造化プルーニングを組み合わせた新しい手法である。
コンピュータビジョンと自然言語処理ベンチマークの実験により,提案手法が優れた圧縮性能のトレードオフを実現することを示す。
論文 参考訳(メタデータ) (2023-02-15T12:02:30Z) - Optimal Brain Compression: A Framework for Accurate Post-Training
Quantization and Pruning [29.284147465251685]
重み付けと量子化の両方を統一した環境でカバーする新しい圧縮フレームワークを提案する。
既存のポストトレーニング手法の圧縮精度トレードオフにより, 大幅な改善が期待できることを示す。
論文 参考訳(メタデータ) (2022-08-24T14:33:35Z) - Permutation Compressors for Provably Faster Distributed Nonconvex
Optimization [68.8204255655161]
本稿では,Gorbunov et al (2021) の MARINA 法が,理論的な通信複雑性の観点から最先端の手法とみなすことができることを示す。
MARINAの理論は、古典的な独立圧縮機設定を超えて、潜在的にエミュレートされた圧縮機の理論を支持するものである。
論文 参考訳(メタデータ) (2021-10-07T09:38:15Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Smoothness Matrices Beat Smoothness Constants: Better Communication
Compression Techniques for Distributed Optimization [10.592277756185046]
大規模分散最適化は、教師付き機械学習モデルのトレーニングのデフォルトツールとなっている。
我々は,局所的損失に伴う滑らかさ行列を最大限に活用できる新しいコミュニケーションスパーシフィケーション戦略を提案する。
論文 参考訳(メタデータ) (2021-02-14T20:55:02Z) - End-to-end Learning of Compressible Features [35.40108701875527]
事前訓練された畳み込みニューラルネットワーク(CNN)は、市販の機能ジェネレータである。
CNNは、市販の強力な機能ジェネレータであり、様々なタスクで非常によく機能することが示されている。
残念ながら、生成された機能は高次元であり、保存するのにコストがかかる。
そこで本稿では, 圧縮性とタスク目標を協調的に最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2020-07-23T05:17:33Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。