論文の概要: Learning under Quantization for High-Dimensional Linear Regression
- arxiv url: http://arxiv.org/abs/2510.18259v1
- Date: Tue, 21 Oct 2025 03:30:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.842418
- Title: Learning under Quantization for High-Dimensional Linear Regression
- Title(参考訳): 高次元線形回帰の量子化による学習
- Authors: Dechen Zhang, Junwei Su, Difan Zou,
- Abstract要約: 低ビット量子化は大規模モデルの効率的なトレーニングを可能にするには不可欠である。
その広範な経験的成功にもかかわらず、その学習性能への影響に関する厳密な理論的理解は、明らかに欠落している。
本研究は,高次元線形回帰に対する有限ステップ勾配勾配(SGD)解析という,この基本問題に関する最初の体系的理論的研究である。
- 参考スコア(独自算出の注目度): 34.214978824165236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of low-bit quantization has emerged as an indispensable technique for enabling the efficient training of large-scale models. Despite its widespread empirical success, a rigorous theoretical understanding of its impact on learning performance remains notably absent, even in the simplest linear regression setting. We present the first systematic theoretical study of this fundamental question, analyzing finite-step stochastic gradient descent (SGD) for high-dimensional linear regression under a comprehensive range of quantization targets: data, labels, parameters, activations, and gradients. Our novel analytical framework establishes precise algorithm-dependent and data-dependent excess risk bounds that characterize how different quantization affects learning: parameter, activation, and gradient quantization amplify noise during training; data quantization distorts the data spectrum; and data and label quantization introduce additional approximation and quantized error. Crucially, we prove that for multiplicative quantization (with input-dependent quantization step), this spectral distortion can be eliminated, and for additive quantization (with constant quantization step), a beneficial scaling effect with batch size emerges. Furthermore, for common polynomial-decay data spectra, we quantitatively compare the risks of multiplicative and additive quantization, drawing a parallel to the comparison between FP and integer quantization methods. Our theory provides a powerful lens to characterize how quantization shapes the learning dynamics of optimization algorithms, paving the way to further explore learning theory under practical hardware constraints.
- Abstract(参考訳): 低ビット量子化の利用は、大規模モデルの効率的なトレーニングを可能にするには不可欠である。
その広範な経験的成功にもかかわらず、その学習性能への影響に関する厳密な理論的理解は、最も単純な線形回帰条件においても、明らかに欠落している。
本研究は,高次元線形回帰のための有限段階確率勾配勾配(SGD)を,データ,ラベル,パラメータ,アクティベーション,勾配の包括的範囲で解析する。
パラメータ,アクティベーション,勾配の量子化は学習中のノイズを増幅し,データ量子化はデータスペクトルを歪ませ,データとラベルの量子化はさらなる近似と量子化誤差をもたらす。
重要なことに、乗法量子化(入出力依存量子化ステップ)では、このスペクトル歪みを排除でき、加法量子化(定量子化ステップ)では、バッチサイズによる有益なスケーリング効果が現れる。
さらに、一般的な多項式・デカイデータスペクトルに対して、乗法および加法量子化のリスクを定量的に比較し、FPと整数量子化の方法の比較と平行に描画する。
我々の理論は、量子化が最適化アルゴリズムの学習力学をどう形成するかを特徴づける強力なレンズを提供し、実用的なハードウェア制約の下で学習理論をさらに探求する道を開く。
関連論文リスト
- High-Dimensional Learning Dynamics of Quantized Models with Straight-Through Estimator [7.837881800517111]
量子ニューラルネットワークトレーニングは、離散的で微分不可能な目的を最適化する。
ストレートスルー推定器(STE)は、サロゲート勾配によるバックプロパゲーションを可能にする。
理論的には、高次元極限において、STEダイナミクスは通常の決定論的微分方程式に収束する。
論文 参考訳(メタデータ) (2025-10-12T16:43:46Z) - Training Dynamics Impact Post-Training Quantization Robustness [31.536101256063684]
学習後の量子化は、大規模言語モデルの効率的な展開に広く採用されている。
我々は,最大32Bパラメータと15Tトレーニングトークンを含む,オープンソースの言語モデルトレーニングトラジェクトリ間の量子化劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2025-10-07T17:59:07Z) - Beyond Discreteness: Finite-Sample Analysis of Straight-Through Estimator for Quantization [2.8948274245812327]
この研究は、ニューラルネットワーク量子化の文脈におけるストレートスルー推定器(STE)の最初の有限サンプル解析を示す。
具体的には、2重みとアクティベーションを持つ2層ニューラルネットワークの量子化学習を解析することにより、データの次元性の観点から、サンプルの複雑さを導出する。
ラベルノイズの存在下では,STE-gradient法の興味深い再帰性を明らかにする。
論文 参考訳(メタデータ) (2025-05-23T17:11:22Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
我々は、減量量化が損失景観におけるより平坦なミニマムを効果的に導くことを実証した。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Efficient Learning for Linear Properties of Bounded-Gate Quantum Circuits [62.46800898243033]
量子学習理論の最近の進歩は、様々な古典的な入力によって生成された測定データから、大きな量子ビット回路の線形特性を効率的に学習できるのか?
我々は、小さな予測誤差を達成するためには、$d$で線形にスケーリングするサンプルの複雑さが必要であることを証明し、それに対応する計算複雑性は、dで指数関数的にスケールする可能性がある。
そこで本研究では,古典的影と三角展開を利用したカーネルベースの手法を提案し,予測精度と計算オーバーヘッドとのトレードオフを制御可能とした。
論文 参考訳(メタデータ) (2024-08-22T08:21:28Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Effect of Weight Quantization on Learning Models by Typical Case
Analysis [6.9060054915724]
最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。
量子化は、限られた計算資源を持つデバイスに大規模なモデルをデプロイするのに不可欠である。
論文 参考訳(メタデータ) (2024-01-30T18:58:46Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。