論文の概要: Beyond Discreteness: Finite-Sample Analysis of Straight-Through Estimator for Quantization
- arxiv url: http://arxiv.org/abs/2505.18113v1
- Date: Fri, 23 May 2025 17:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.244381
- Title: Beyond Discreteness: Finite-Sample Analysis of Straight-Through Estimator for Quantization
- Title(参考訳): 離散性を超えて:量子化のためのストレートスルー推定器の有限サンプル解析
- Authors: Halyun Jeong, Jack Xin, Penghang Yin,
- Abstract要約: この研究は、ニューラルネットワーク量子化の文脈におけるストレートスルー推定器(STE)の最初の有限サンプル解析を示す。
具体的には、2重みとアクティベーションを持つ2層ニューラルネットワークの量子化学習を解析することにより、データの次元性の観点から、サンプルの複雑さを導出する。
ラベルノイズの存在下では,STE-gradient法の興味深い再帰性を明らかにする。
- 参考スコア(独自算出の注目度): 2.8948274245812327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training quantized neural networks requires addressing the non-differentiable and discrete nature of the underlying optimization problem. To tackle this challenge, the straight-through estimator (STE) has become the most widely adopted heuristic, allowing backpropagation through discrete operations by introducing surrogate gradients. However, its theoretical properties remain largely unexplored, with few existing works simplifying the analysis by assuming an infinite amount of training data. In contrast, this work presents the first finite-sample analysis of STE in the context of neural network quantization. Our theoretical results highlight the critical role of sample size in the success of STE, a key insight absent from existing studies. Specifically, by analyzing the quantization-aware training of a two-layer neural network with binary weights and activations, we derive the sample complexity bound in terms of the data dimensionality that guarantees the convergence of STE-based optimization to the global minimum. Moreover, in the presence of label noises, we uncover an intriguing recurrence property of STE-gradient method, where the iterate repeatedly escape from and return to the optimal binary weights. Our analysis leverages tools from compressed sensing and dynamical systems theory.
- Abstract(参考訳): 量子化されたニューラルネットワークを訓練するには、基礎となる最適化問題の非微分可能で離散的な性質に対処する必要がある。
この課題に対処するために、ストレートスルー推定器(STE)は最も広く採用されているヒューリスティックとなり、サロゲート勾配を導入して離散演算によるバックプロパゲーションを可能にする。
しかし、その理論的性質は未解明のままであり、無限のトレーニングデータを仮定して解析を単純化する研究はほとんどない。
対照的に、この研究は、ニューラルネットワーク量子化の文脈において、STEの初めての有限サンプル解析を示す。
以上の結果から,STEの成功におけるサンプルサイズの重要性が示唆された。
具体的には、2重みとアクティベーションを持つ2層ニューラルネットワークの量子化学習を解析することにより、STEに基づく最適化のグローバル最小値への収束を保証するデータ次元性の観点から、サンプルの複雑さを導出する。
さらに,ラベルノイズの存在下では,STE-gradient法の興味深い再帰性を明らかにする。
本分析では, 圧縮センシングと動的システム理論のツールを利用する。
関連論文リスト
- On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks [8.180184504355571]
線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
論文 参考訳(メタデータ) (2023-05-21T14:08:34Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - How does unlabeled data improve generalization in self-training? A
one-hidden-layer theoretical analysis [93.37576644429578]
この研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立する。
トレーニング収束と一般化能力の両面で、ラベルなしデータの利点を実証する。
また、浅部ニューラルネットワークから深部ニューラルネットワークへの実験は、我々の確立した自己学習に関する理論的知見の正しさを正当化するものである。
論文 参考訳(メタデータ) (2022-01-21T02:16:52Z) - Recurrence of Optimum for Training Weight and Activation Quantized
Networks [4.103701929881022]
低精度の重みとアクティベーションを備えたディープラーニングモデルのトレーニングには、必要な最適化タスクが伴う。
ネットワーク量子化の性質を克服する方法を紹介します。
また,訓練用量子化深層ネットワークにおける重み進化の繰り返し現象の数値的証拠を示す。
論文 参考訳(メタデータ) (2020-12-10T09:14:43Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。