論文の概要: Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware
Training
- arxiv url: http://arxiv.org/abs/2211.08544v1
- Date: Sat, 12 Nov 2022 06:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 15:24:34.040827
- Title: Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware
Training
- Title(参考訳): 量子化学習のための部分スクラッチオフロッキーチケットの爆発
- Authors: Yunshan Zhong, Mingbao Lin, Yuxin Zhang, Gongrui Nan, Fei Chao,
Rongrong Ji
- Abstract要約: 数回のトレーニングの後に、量子化重量の大部分が最適な量子化レベルに達し、これは部分的にスクラッチオフされた宝くじと呼ばれる。
このチケットを効果的に見つけるために、フル精度のチケットと量子化レベルの距離が制御可能な閾値よりも小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれる方法を開発した。
- 参考スコア(独自算出の注目度): 70.85301692967288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-aware training (QAT) receives extensive popularity as it well
retains the performance of quantized networks. In QAT, the contemporary
experience is that all quantized weights are updated for an entire training
process. In this paper, this experience is challenged based on an interesting
phenomenon we observed. Specifically, a large portion of quantized weights
reaches the optimal quantization level after a few training epochs, which we
refer to as the partly scratch-off lottery ticket. This
straightforward-yet-valuable observation naturally inspires us to zero out
gradient calculations of these weights in the remaining training period to
avoid meaningless updating. To effectively find the ticket, we develop a
heuristic method, dubbed as lottery ticket scratcher (LTS), which freezes a
weight once the distance between the full-precision one and its quantization
level is smaller than a controllable threshold. Surprisingly, the proposed LTS
typically eliminates 30\%-60\% weight updating and 15\%-30\% FLOPs of the
backward pass, while still resulting on par with or even better performance
than the compared baseline. For example, compared with the baseline, LTS
improves 2-bit ResNet-18 by 1.41\%, eliminating 56\% weight updating and 28\%
FLOPs of the backward pass.
- Abstract(参考訳): 量子化アウェアトレーニング(qat)は、量子化ネットワークのパフォーマンスを保ちながら広く普及している。
現代のQATでは、全ての量子化重量がトレーニングプロセス全体に対して更新される。
本稿では,我々が観察した興味深い現象をもとに,この経験に挑戦する。
具体的には、量子化された重みの大部分が、いくつかのトレーニング期間を経て最適な量子化レベルに達します。
この単純で価値の高い観測は、無意味な更新を避けるために、残りのトレーニング期間でこれらの重みの勾配計算をゼロにするきっかけとなりました。
このチケットを効果的に見つけるために、フル精度のチケットと量子化レベルの距離が制御可能な閾値より小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれるヒューリスティック手法を開発した。
驚いたことに、提案されたltsは一般的に、30\%-60\%の重量更新と15\%-30\%の後方通過のフロップを取り除き、それでも比較したベースラインと同等またはそれ以上の性能が得られる。
例えば、ベースラインと比較してLTSは2ビットのResNet-18を 1.41 %改善し、56 %の重量更新と28 %のFLOPを削減した。
関連論文リスト
- EfQAT: An Efficient Framework for Quantization-Aware Training [20.47826378511535]
量子化対応トレーニング(QAT)スキームは、ほぼ完全な精度を実現することが示されている。
ポストトレーニング量子化(PTQ)スキームはトレーニングを伴わないため、計算的に安価である。
本稿では、量子化モデルのパラメータのサブセットのみを最適化することにより、両方のスキームを一般化するEfQATを提案する。
論文 参考訳(メタデータ) (2024-11-17T11:06:36Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Transition Rate Scheduling for Quantization-Aware Training [26.792400685888175]
量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。
勾配ベースを用いて遅延重みを更新することで、間接的に量子化された重みを学習する。
本稿では,量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を提案する。
論文 参考訳(メタデータ) (2024-04-30T04:12:36Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。
既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。
InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文 参考訳(メタデータ) (2023-06-20T03:03:04Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。
その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。
トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-21T16:07:42Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Weight Update Skipping: Reducing Training Time for Artificial Neural
Networks [0.30458514384586394]
本稿では,時間的変動を示す精度向上の観察を生かしたANNのための新しいトレーニング手法を提案する。
このような時間窓の間、ネットワークがまだトレーニングされていることを保証し、過度な適合を避けるバイアスを更新し続けます。
このようなトレーニングアプローチは、計算コストを大幅に削減して、ほぼ同じ精度を達成し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2020-12-05T15:12:10Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。