論文の概要: Learning from Loss Landscape: Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning
- arxiv url: http://arxiv.org/abs/2505.04877v1
- Date: Thu, 08 May 2025 01:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 21:43:49.70978
- Title: Learning from Loss Landscape: Generalizable Mixed-Precision Quantization via Adaptive Sharpness-Aware Gradient Aligning
- Title(参考訳): ロスランドスケープから学ぶ:適応シャープネスによる一般化可能な混合精度量子化
- Authors: Lianbo Ma, Jianlun Ma, Yuee Zhou, Guoyang Xie, Qiang He, Zhichao Lu,
- Abstract要約: 混合精度量子化(MPQ)は、層ごとの最適ビット幅を決定することにより、ニューラルネットワークを最適化するための重要な技術となっている。
しかし、既存のMPQ手法は大きなハードルに直面しており、大規模データセットの量子化ポリシーを計算に高価に検索する必要がある。
本稿では,まず小さなデータセットの量子化ポリシーを探索し,それらを大規模データセットに一般化する手法を提案する。
- 参考スコア(独自算出の注目度): 14.559880408535024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixed Precision Quantization (MPQ) has become an essential technique for optimizing neural network by determining the optimal bitwidth per layer. Existing MPQ methods, however, face a major hurdle: they require a computationally expensive search for quantization policies on large-scale datasets. To resolve this issue, we introduce a novel approach that first searches for quantization policies on small datasets and then generalizes them to large-scale datasets. This approach simplifies the process, eliminating the need for large-scale quantization fine-tuning and only necessitating model weight adjustment. Our method is characterized by three key techniques: sharpness-aware minimization for enhanced quantization generalization, implicit gradient direction alignment to handle gradient conflicts among different optimization objectives, and an adaptive perturbation radius to accelerate optimization. Both theoretical analysis and experimental results validate our approach. Using the CIFAR10 dataset (just 0.5\% the size of ImageNet training data) for MPQ policy search, we achieved equivalent accuracy on ImageNet with a significantly lower computational cost, while improving efficiency by up to 150% over the baselines.
- Abstract(参考訳): 混合精度量子化(MPQ)は、層ごとの最適ビット幅を決定することにより、ニューラルネットワークを最適化するための重要な技術となっている。
しかし、既存のMPQ手法は大きなハードルに直面しており、大規模データセットの量子化ポリシーを計算に高価に検索する必要がある。
この問題を解決するために、我々はまず小さなデータセット上で量子化ポリシーを探索し、次にそれらを大規模データセットに一般化する新しいアプローチを導入する。
このアプローチは、大規模量子化の微調整の必要性を排除し、モデルの重量調整を必要とせず、プロセスを単純化する。
本手法の特徴は, 量子化一般化の高速化のためのシャープネス認識最小化, 最適化目標間の勾配競合に対処するための暗黙の勾配方向アライメント, 最適化を高速化するための適応摂動半径の3つである。
理論的解析と実験結果の両方が我々のアプローチを検証する。
CIFAR10データセット(画像ネットのトレーニングデータの0.5倍の大きさ)をMPQポリシーサーチに使用し、計算コストを大幅に削減し、ベースラインよりも最大150%効率を向上しながら、ImageNetで同等の精度を実現した。
関連論文リスト
- GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Sharpness-aware Quantization for Deep Neural Networks [45.150346855368]
シャープネス・アウェア量子化(SAQ)は,シャープネス・アウェア最小化(SAM)がモデル圧縮に与える影響を探索する新しい手法である。
本研究では,SAQにより量子化モデルの一般化性能が向上し,SOTAの結果が均一に量子化されることを示す。
論文 参考訳(メタデータ) (2021-11-24T05:16:41Z) - Efficient and Sparse Neural Networks by Pruning Weights in a
Multiobjective Learning Approach [0.0]
本稿では、予測精度とネットワーク複雑性を2つの個別目的関数として扱うことにより、ニューラルネットワークのトレーニングに関する多目的視点を提案する。
模範的畳み込みニューラルネットワークの予備的な数値結果から、ニューラルネットワークの複雑性の大幅な低減と精度の低下が可能であることが確認された。
論文 参考訳(メタデータ) (2020-08-31T13:28:03Z) - Human Body Model Fitting by Learned Gradient Descent [48.79414884222403]
画像に3次元の人体形状を適合させる新しいアルゴリズムを提案する。
このアルゴリズムは高速(約120ms収束)で、データセットに頑健であり、公開評価データセットの最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2020-08-19T14:26:47Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。