論文の概要: Scaling Laws for Precision in High-Dimensional Linear Regression
- arxiv url: http://arxiv.org/abs/2602.19241v1
- Date: Sun, 22 Feb 2026 15:51:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.546779
- Title: Scaling Laws for Precision in High-Dimensional Linear Regression
- Title(参考訳): 高次元線形回帰における精度のスケーリング法則
- Authors: Dechen Zhang, Xuan Tang, Yingyu Liang, Difan Zou,
- Abstract要約: 本研究では,高次元スケッチ化線形回帰フレームワークにおける低精度トレーニングのためのスケーリング法則について検討する。
乗法および加法量子化を解析することにより、スケーリング行動における臨界二分法を同定する。
本研究は,実際のハードウェア制約下でのトレーニングプロトコルの最適化に関する理論的基礎を提供する。
- 参考スコア(独自算出の注目度): 38.87908801454087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-precision training is critical for optimizing the trade-off between model quality and training costs, necessitating the joint allocation of model size, dataset size, and numerical precision. While empirical scaling laws suggest that quantization impacts effective model and data capacities or acts as an additive error, the theoretical mechanisms governing these effects remain largely unexplored. In this work, we initiate a theoretical study of scaling laws for low-precision training within a high-dimensional sketched linear regression framework. By analyzing multiplicative (signal-dependent) and additive (signal-independent) quantization, we identify a critical dichotomy in their scaling behaviors. Our analysis reveals that while both schemes introduce an additive error and degrade the effective data size, they exhibit distinct effects on effective model size: multiplicative quantization maintains the full-precision model size, whereas additive quantization reduces the effective model size. Numerical experiments validate our theoretical findings. By rigorously characterizing the complex interplay among model scale, dataset size, and quantization error, our work provides a principled theoretical basis for optimizing training protocols under practical hardware constraints.
- Abstract(参考訳): 低精度トレーニングは、モデル品質とトレーニングコストのトレードオフを最適化し、モデルサイズ、データセットサイズ、数値精度の同時割り当てを必要とするために重要である。
実証的なスケーリング法則は、量子化が効果的なモデルとデータ容量に影響を与えるか、追加的な誤差として作用するかを示唆するが、これらの効果を規定する理論的メカニズムはほとんど未解明のままである。
本研究では,高次元スケッチ線形回帰フレームワークにおける低精度トレーニングのスケーリング法則に関する理論的研究を開始する。
乗法的(信号に依存しない)および加法的(信号に依存しない)量子化を解析することにより、スケーリング行動における臨界二分法を同定する。
解析の結果, 2つのスキームは加法誤差を導入し, 有効データサイズを劣化させるが, 有効モデルサイズに明確な効果を示すことが明らかとなった。
数値実験により理論的な結果が得られた。
モデルスケール,データセットサイズ,量子化誤差の複雑な相互作用を厳格に特徴付けることにより,本研究は,実用的なハードウェア制約下でのトレーニングプロトコルを最適化するための理論的基礎を提供する。
関連論文リスト
- A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization [32.97211471008323]
我々は、勾配、重み、状態の浮動小数点量子化の下で、アダムやムオンを含む適応収束の最初の理論的枠組みを導入する。
両アルゴリズムが完全精度のアルゴリズムに近い収束率を維持していることを示す。
我々はさらに、Adamが$beta から 1$ への依存のため、高い感度と第二モーメントの量子化重みに敏感であることを明らかにし、Muon はより弱いエラー制御を必要とするため、より堅牢である可能性がある。
論文 参考訳(メタデータ) (2025-10-24T10:16:23Z) - Training Dynamics Impact Post-Training Quantization Robustness [31.536101256063684]
学習後の量子化は、大規模言語モデルの効率的な展開に広く採用されている。
我々は,最大32Bパラメータと15Tトレーニングトークンを含む,オープンソースの言語モデルトレーニングトラジェクトリ間の量子化劣化の包括的解析を行う。
論文 参考訳(メタデータ) (2025-10-07T17:59:07Z) - ARISE: An Adaptive Resolution-Aware Metric for Test-Time Scaling Evaluation in Large Reasoning Models [102.4511331368587]
ARISE(Adaptive Resolution-Aware Scaling Evaluation)は、大規模推論モデルの試験時間スケーリングの有効性を評価するために設計された新しい尺度である。
我々は、様々な領域にわたる最先端の推論モデルを評価する包括的な実験を行う。
論文 参考訳(メタデータ) (2025-10-07T15:10:51Z) - Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。
モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。
一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文 参考訳(メタデータ) (2025-02-26T06:18:13Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
組み合わせると、空間性と量子化がどう相互作用するかを示す。
仮に正しい順序で適用しても、スパーシリティと量子化の複合誤差は精度を著しく損なう可能性があることを示す。
我々の発見は、資源制約の計算プラットフォームにおける大規模モデルの効率的な展開にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Effect of Weight Quantization on Learning Models by Typical Case
Analysis [6.9060054915724]
最近のデータ分析スケールの急増は、計算リソースの要求を大幅に増加させた。
量子化は、限られた計算資源を持つデバイスに大規模なモデルをデプロイするのに不可欠である。
論文 参考訳(メタデータ) (2024-01-30T18:58:46Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Quantized Adaptive Subgradient Algorithms and Their Applications [39.103587572626026]
本稿では、分散トレーニングのための量子化された複合ミラー降下適応次数 (QCMD adagrad) と量子化された正規化された2次平均適応次数 (QRDA adagrad) を提案する。
量子化勾配に基づく適応学習率行列を構築し、通信コスト、精度、モデル間隔のバランスをとる。
論文 参考訳(メタデータ) (2022-08-11T04:04:03Z) - Precise Tradeoffs in Adversarial Training for Linear Regression [55.764306209771405]
本稿では,ガウス的特徴を伴う線形回帰の文脈における対人訓練の役割を,正確かつ包括的に理解する。
我々は,同時代のミニマックス対逆訓練手法によって達成された標準/ロバスト精度とそれに対応するトレードオフを正確に特徴づける。
逆行訓練アルゴリズムの理論は、様々な要因(トレーニングデータのサイズや品質、モデルの過度化など)がこれらの2つの競合するアキュラシー間のトレードオフにどのように影響するかを厳密に研究する上で役立ちます。
論文 参考訳(メタデータ) (2020-02-24T19:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。