論文の概要: HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving
Generalization and Quantization Performance
- arxiv url: http://arxiv.org/abs/2111.11986v1
- Date: Tue, 23 Nov 2021 16:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 16:08:48.501307
- Title: HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving
Generalization and Quantization Performance
- Title(参考訳): HERO:一般化と量子化性能の統一と改善のためのヘシアン強化ロバスト最適化
- Authors: Huanrui Yang, Xiaoxuan Yang, Neil Zhenqiang Gong and Yiran Chen
- Abstract要約: 我々は、勾配に基づく学習プロセスを通じて、ヘッセン固有値を最小限に抑えるため、ヘッセンで強化された頑健な最適化手法HEROを提案する。
HEROは試験精度を最大3.8%向上させ、80%のトレーニングラベル摂動で最大30%高い精度を達成し、幅広い精度で最高のトレーニング後の量子化精度を実現する。
- 参考スコア(独自算出の注目度): 43.478851400266926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the recent demand of deploying neural network models on mobile and edge
devices, it is desired to improve the model's generalizability on unseen
testing data, as well as enhance the model's robustness under fixed-point
quantization for efficient deployment. Minimizing the training loss, however,
provides few guarantees on the generalization and quantization performance. In
this work, we fulfill the need of improving generalization and quantization
performance simultaneously by theoretically unifying them under the framework
of improving the model's robustness against bounded weight perturbation and
minimizing the eigenvalues of the Hessian matrix with respect to model weights.
We therefore propose HERO, a Hessian-enhanced robust optimization method, to
minimize the Hessian eigenvalues through a gradient-based training process,
simultaneously improving the generalization and quantization performance. HERO
enables up to a 3.8% gain on test accuracy, up to 30% higher accuracy under 80%
training label perturbation, and the best post-training quantization accuracy
across a wide range of precision, including a >10% accuracy improvement over
SGD-trained models for common model architectures on various datasets.
- Abstract(参考訳): 近年,モバイルおよびエッジデバイス上でのニューラルネットワークモデルの展開が求められているため,非知覚テストデータに対するモデルの一般化性の向上や,固定点量子化によるモデルの堅牢性の向上が望まれている。
しかしながら、トレーニング損失の最小化は、一般化と量子化のパフォーマンスに関する保証をほとんど与えていない。
本研究では, モデル重みに関するヘッセン行列の固有値の最小化と有界重み摂動に対するモデルの堅牢性の向上という枠組みの下で, 理論的に統一することで, 一般化と量子化性能を同時に向上する必要性を満たす。
そこで我々は,Hessian-enhanced robust optimization methodであるHEROを提案し,Hessian固有値を勾配に基づく学習プロセスにより最小化し,一般化と量子化性能を同時に向上させる。
HEROは、テスト精度が最大3.8%向上し、80%のトレーニングラベルの摂動で最大30%高い精度を実現し、さまざまなデータセット上の共通モデルアーキテクチャのためのSGDトレーニングモデルに対する10%以上の精度の改善を含む、幅広い精度で最高のトレーニング後の量子化精度を実現する。
関連論文リスト
- MixedNUTS: Training-Free Accuracy-Robustness Balance via Nonlinearly
Mixed Classifiers [45.41170733091113]
MixedNUTSは、ロバストな分類器の出力ロジットを3つのパラメータしか持たない非線形変換で処理する訓練不要の手法である。
MixedNUTSは変換されたロジットを確率に変換し、それらを全体の出力として混合する。
CIFAR-10、CIFAR-100、ImageNetデータセットでは、MixedNUTSの精度とほぼSOTAの堅牢性を大幅に改善した。
論文 参考訳(メタデータ) (2024-02-03T21:12:36Z) - Meta-learning to Calibrate Gaussian Processes with Deep Kernels for
Regression Uncertainty Estimation [43.23399636191726]
本稿では,遅延不確実性推定性能を改善するために,深層カーネルGPの校正のためのメタラーニング手法を提案する。
提案手法は,テスト期待校正誤差を最小限に抑えて,様々なタスクのデータを用いて不確実性を校正する方法をメタ学習する。
実験により,提案手法は高い回帰性能を維持しながら不確実性推定性能を向上させることを示した。
論文 参考訳(メタデータ) (2023-12-13T07:58:47Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Automatically Learning Compact Quality-aware Surrogates for Optimization
Problems [55.94450542785096]
未知パラメータで最適化問題を解くには、未知パラメータの値を予測し、これらの値を用いて問題を解くための予測モデルを学ぶ必要がある。
最近の研究によると、複雑なトレーニングモデルパイプラインのレイヤーとして最適化の問題を含めると、観測されていない意思決定の繰り返しを予測することになる。
我々は,大規模最適化問題の低次元サロゲートモデルを学習することにより,解の質を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-06-18T19:11:54Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。