論文の概要: High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator
- arxiv url: http://arxiv.org/abs/2510.10693v1
- Date: Sun, 12 Oct 2025 16:43:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.069631
- Title: High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator
- Title(参考訳): ストレートスルー推定器を用いた量子モデルの高次元学習ダイナミクス
- Authors: Yuma Ichikawa, Shuhei Kashiwamura, Ayaka Sakata,
- Abstract要約: 量子ニューラルネットワークトレーニングは、離散的で微分不可能な目的を最適化する。
ストレートスルー推定器(STE)は、サロゲート勾配によるバックプロパゲーションを可能にする。
理論的には、高次元極限において、STEダイナミクスは通常の決定論的微分方程式に収束する。
- 参考スコア(独自算出の注目度): 7.837881800517111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantized neural network training optimizes a discrete, non-differentiable objective. The straight-through estimator (STE) enables backpropagation through surrogate gradients and is widely used. While previous studies have primarily focused on the properties of surrogate gradients and their convergence, the influence of quantization hyperparameters, such as bit width and quantization range, on learning dynamics remains largely unexplored. We theoretically show that in the high-dimensional limit, STE dynamics converge to a deterministic ordinary differential equation. This reveals that STE training exhibits a plateau followed by a sharp drop in generalization error, with plateau length depending on the quantization range. A fixed-point analysis quantifies the asymptotic deviation from the unquantized linear model. We also extend analytical techniques for stochastic gradient descent to nonlinear transformations of weights and inputs.
- Abstract(参考訳): 量子ニューラルネットワークトレーニングは、離散的で微分不可能な目的を最適化する。
ストレートスルー推定器(STE)は、サロゲート勾配によるバックプロパゲーションを可能にし、広く利用されている。
これまでの研究では、主に代理勾配の性質とその収束に焦点を当ててきたが、ビット幅や量子化範囲などの量子化ハイパーパラメータが学習力学に与える影響は未解明のままである。
理論的には、高次元極限において、STE力学は決定論的常微分方程式に収束する。
このことから, STE トレーニングでは, 一般化誤差が急激な低下を伴い, 量子化範囲に応じてプレート長が変化することが明らかとなった。
固定点解析は、不定値線形モデルからの漸近偏差を定量化する。
また、重みと入力の非線形変換に確率勾配降下の解析的手法を拡張した。
関連論文リスト
- Beyond Discreteness: Finite-Sample Analysis of Straight-Through Estimator for Quantization [2.8948274245812327]
この研究は、ニューラルネットワーク量子化の文脈におけるストレートスルー推定器(STE)の最初の有限サンプル解析を示す。
具体的には、2重みとアクティベーションを持つ2層ニューラルネットワークの量子化学習を解析することにより、データの次元性の観点から、サンプルの複雑さを導出する。
ラベルノイズの存在下では,STE-gradient法の興味深い再帰性を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T17:11:22Z) - An Analytical Characterization of Sloppiness in Neural Networks: Insights from Linear Models [18.99511760351873]
近年の研究では、複数の深層ニューラルネットワークのトレーニング軌道が、驚くほど低次元の「ハイパーリボン様」多様体上で進化することが示されている。
深層ネットワークと線形ネットワークの訓練軌跡の類似性から着想を得て,この現象を後者に対して解析的に特徴付ける。
この低次元多様体の幾何学は, (i) トレーニングデータの入力相関行列の固有値の減衰率, (ii) トレーニング開始時の接地トラスト出力の相対スケール, (iii) 勾配勾配のステップ数によって制御されることを示す。
論文 参考訳(メタデータ) (2025-05-13T19:20:19Z) - Training Dynamics of Nonlinear Contrastive Learning Model in the High Dimensional Limit [1.7597525104451157]
モデル重みの実験的分布は、マッキーン・ブラソフ非線形偏微分方程式(PDE)によって支配される決定論的尺度に収束する
L2正則化の下で、このPDEは低次元常微分方程式(ODE)の閉集合に還元する。
ODEの固定点位置とその安定性を解析し,いくつかの興味深い結果を示した。
論文 参考訳(メタデータ) (2024-06-11T03:07:41Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Robust Implicit Regularization via Weight Normalization [5.37610807422229]
重み正規化は、重みが実質的に大規模であっても持続する頑健なバイアスを可能にすることを示す。
実験により, 暗黙バイアスの収束速度とロバスト性の両方の利得は, 重み正規化を用いて劇的に改善されることが示唆された。
論文 参考訳(メタデータ) (2023-05-09T13:38:55Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - A Dynamical Central Limit Theorem for Shallow Neural Networks [48.66103132697071]
平均極限の周りのゆらぎは、トレーニングを通して平均正方形に有界であることを証明する。
平均場ダイナミクスがトレーニングデータを補間する尺度に収束すると、最終的にCLTスケーリングにおいて偏差が消えることを示す。
論文 参考訳(メタデータ) (2020-08-21T18:00:50Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - Path Sample-Analytic Gradient Estimators for Stochastic Binary Networks [78.76880041670904]
二進的アクティベーションや二進的重みを持つニューラルネットワークでは、勾配降下によるトレーニングは複雑である。
そこで本研究では,サンプリングと解析近似を併用した新しい推定法を提案する。
勾配推定において高い精度を示し、深部畳み込みモデルにおいてより安定かつ優れた訓練を行うことを示す。
論文 参考訳(メタデータ) (2020-06-04T21:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。