論文の概要: LOTION: Smoothing the Optimization Landscape for Quantized Training
- arxiv url: http://arxiv.org/abs/2510.08757v1
- Date: Thu, 09 Oct 2025 19:16:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.597615
- Title: LOTION: Smoothing the Optimization Landscape for Quantized Training
- Title(参考訳): LOTION:Smoothing the Optimization Landscape for Quantized Training
- Authors: Mujin Kwun, Depen Morwani, Chloe Huangyuan Su, Stephanie Gil, Nikhil Anand, Sham Kakade,
- Abstract要約: 生の量子化損失を非バイアスのランダム化周囲雑音下での予測に置き換える原理的平滑化フレームワークであるLOTIONを導入する。
本手法は, 合成テストベッドおよび150M-および300M-パラメータ言語モデルにおいて, 標準QATよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 9.855789447735757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing neural networks for quantized objectives is fundamentally challenging because the quantizer is piece-wise constant, yielding zero gradients everywhere except at quantization thresholds where the derivative is undefined. Most existing methods deal with this issue by relaxing gradient computations with techniques like Straight Through Estimators (STE) and do not provide any guarantees of convergence. In this work, taking inspiration from Nesterov smoothing, we approximate the quantized loss surface with a continuous loss surface. In particular, we introduce LOTION, \textbf{L}ow-precision \textbf{O}ptimization via s\textbf{T}ochastic-no\textbf{I}se sm\textbf{O}othi\textbf{N}g, a principled smoothing framework that replaces the raw quantized loss with its expectation under unbiased randomized-rounding noise. In this framework, standard optimizers are guaranteed to converge to a local minimum of the loss surface. Moreover, when using noise derived from stochastic rounding, we show that the global minima of the original quantized loss are preserved. We empirically demonstrate that this method outperforms standard QAT on synthetic testbeds and on 150M- and 300M- parameter language models.
- Abstract(参考訳): 量子化対象に対するニューラルネットワークの最適化は、量子化器が分数的に一定であるため、微分が未定義の量子化しきい値を除いて至るところでゼロ勾配が得られるため、基本的に困難である。
既存のほとんどの手法は勾配計算をSTE(Straight Through Estimators)のような手法で緩和することでこの問題に対処し、収束の保証は提供しない。
本研究では,ネステロフ平滑化からインスピレーションを得て,連続的な損失面と量子化損失面を近似する。
特に, LOTION, \textbf{L}ow-precision \textbf{O}ptimization via s\textbf{T}ochastic-no\textbf{I}se sm\textbf{O}othi\textbf{N}g を導入する。
このフレームワークでは、標準オプティマイザは損失面の局所的な最小限に収束することが保証される。
さらに,確率的ラウンドリングから導かれる雑音を用いることで,元の量子化損失の大域的最小値が保存されていることを示す。
本手法は, 合成テストベッドおよび150M-および300M-パラメータ言語モデルにおいて, 標準QATよりも優れていることを示す。
関連論文リスト
- Progressive Element-wise Gradient Estimation for Neural Network Quantization [2.1413624861650358]
量子化アウェアトレーニング(QAT)法は、離散化関数の非微分可能性に対処するためにSTE(Straight-Through Estimator)に依存する。
本稿では,連続値と量子化値の離散化誤差に対処するため,PEGE(Progressive Element-wise Gradient Estimation)を提案する。
PEGEは、既存のバックプロパゲーション手法を一貫して上回り、低精度のモデルが彼らの完全精度の精度にマッチしたり、さらに上回ったりすることを可能にしている。
論文 参考訳(メタデータ) (2025-08-27T15:59:36Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Gradient Normalization Provably Benefits Nonconvex SGD under Heavy-Tailed Noise [60.92029979853314]
重み付き雑音下でのグラディエントDescence(SGD)の収束を確実にする上での勾配正規化とクリッピングの役割について検討する。
我々の研究は、重尾雑音下でのSGDの勾配正規化の利点を示す最初の理論的証拠を提供する。
我々は、勾配正規化とクリッピングを取り入れた加速SGD変種を導入し、さらに重み付き雑音下での収束率を高めた。
論文 参考訳(メタデータ) (2024-10-21T22:40:42Z) - Robust Stochastic Optimization via Gradient Quantile Clipping [6.2844649973308835]
グラディエントDescent(SGD)のための量子クリッピング戦略を導入する。
通常のクリッピングチェーンとして、グラデーション・ニュー・アウトリージを使用します。
本稿では,Huberiles を用いたアルゴリズムの実装を提案する。
論文 参考訳(メタデータ) (2023-09-29T15:24:48Z) - Randomized semi-quantum matrix processing [0.0]
汎用行列関数をシミュレートするためのハイブリッド量子古典的フレームワークを提案する。
この方法は、対象関数のチェビシェフ近似上のランダム化に基づいている。
コストのかかるパラメータの2次高速化を含む,平均深度に対する利点を実証する。
論文 参考訳(メタデータ) (2023-07-21T18:00:28Z) - Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。
本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。
本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文 参考訳(メタデータ) (2022-12-11T20:37:50Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。
非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。
そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文 参考訳(メタデータ) (2021-06-10T17:54:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。