論文の概要: Efficiently Training A Flat Neural Network Before It has been Quantizated
- arxiv url: http://arxiv.org/abs/2511.01462v1
- Date: Mon, 03 Nov 2025 11:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.236631
- Title: Efficiently Training A Flat Neural Network Before It has been Quantizated
- Title(参考訳): 量子化される前に、フラットニューラルネットワークを効果的に訓練する
- Authors: Peng Xia, Junbiao Pang, Tianyang Cai,
- Abstract要約: 視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
事前定義された精度の低ビットモデルに適したモデルに依存しないニューラルネットワークを効率的にトレーニングする方法は不明である。
本稿では,エラー源の測定とアンタングによってモデルを積極的に事前条件付けするフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.236012064192816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) for vision transformers (ViTs) has garnered significant attention due to its efficiency in compressing models. However, existing methods typically overlook the relationship between a well-trained NN and the quantized model, leading to considerable quantization error for PTQ. However, it is unclear how to efficiently train a model-agnostic neural network which is tailored for a predefined precision low-bit model. In this paper, we firstly discover that a flat full precision neural network is crucial for low-bit quantization. To achieve this, we propose a framework that proactively pre-conditions the model by measuring and disentangling the error sources. Specifically, both the Activation Quantization Error (AQE) and the Weight Quantization Error (WQE) are statistically modeled as independent Gaussian noises. We study several noise injection optimization methods to obtain a flat minimum. Experimental results attest to the effectiveness of our approach. These results open novel pathways for obtaining low-bit PTQ models.
- Abstract(参考訳): 視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
しかし、既存の手法はよく訓練されたNNと量子化モデルの関係を見落とし、PTQに対してかなりの量子化誤差をもたらす。
しかし、事前定義された精度の低ビットモデルに適したモデルに依存しないニューラルネットワークを効率的にトレーニングする方法は不明である。
本稿では,まず,平面完全精度ニューラルネットワークが低ビット量子化に重要であることを明らかにする。
そこで本研究では,誤差源の測定と解離によってモデルを積極的に事前条件付けするフレームワークを提案する。
具体的には、アクティベーション量子化誤差(AQE)とウェイト量子化誤差(WQE)の両方を独立ガウス雑音として統計的にモデル化する。
平面最小値を得るために,複数のノイズ注入最適化法について検討する。
提案手法の有効性を実験的に検証した。
これらの結果は低ビットPTQモデルを得るための新しい経路を開く。
関連論文リスト
- Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization [3.560046736432574]
PTQ(Post-Training Quantization)は、事前訓練されたフル精度(FP)モデルを、トレーニングなしで量子化したバージョンに変換する。
既存の手法は、量子化ノイズによる極端に低い設定で性能と量子化効率を著しく低下させる。
この問題に対処するためのディープモデルシリーズ拡張フレームワークを導入し、キャリブレーションセットや微調整を必要とせずに、不定値モデルの迅速かつ正確な近似を可能にする。
論文 参考訳(メタデータ) (2024-12-09T08:50:28Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - VecQ: Minimal Loss DNN Model Compression With Vectorized Weight
Quantization [19.66522714831141]
我々は、最小の直接量子化損失とモデル精度を保証できるVecQと呼ばれる新しい量子化ソリューションを開発した。
また,学習中に提案した量子化過程を高速化するために,パラメータ化推定と確率ベース計算を用いて量子化過程を高速化する。
論文 参考訳(メタデータ) (2020-05-18T07:38:44Z) - SQWA: Stochastic Quantized Weight Averaging for Improving the
Generalization Capability of Low-Precision Deep Neural Networks [29.187848543158992]
我々は、新しい量子化ニューラルネットワーク最適化手法、量子化ウェイト平均化(SQWA)を提案する。
提案手法には、浮動小数点モデルのトレーニング、重みの直接量子化、複数の低精度モデルのキャプチャ、キャプチャーモデルの平均化、低学習率の微調整が含まれる。
SQWAトレーニングにより、CIFAR-100およびImageNetデータセット上の2ビットQDNNの最先端結果を得た。
論文 参考訳(メタデータ) (2020-02-02T07:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。