論文の概要: Training with Fewer Bits: Unlocking Edge LLMs Training with Stochastic Rounding
- arxiv url: http://arxiv.org/abs/2511.00874v1
- Date: Sun, 02 Nov 2025 09:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.974452
- Title: Training with Fewer Bits: Unlocking Edge LLMs Training with Stochastic Rounding
- Title(参考訳): 低ビットによるトレーニング:確率ラウンドリングによるエッジLDMのアンロック
- Authors: Taowen Liu, Marta Andronic, Deniz Gündüz, George A. Constantinides,
- Abstract要約: 量子化トレーニングは計算とメモリ効率を改善するが、量子化ノイズを導入する。
バッチサイズの増加は、バックプロパゲーション時の精度の低下を補うことができることを示す。
また、重みとアクティベーションの定量化が、異なる方法で勾配のばらつきに影響を与えることも示している。
- 参考スコア(独自算出の注目度): 37.30928503608494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM training is resource-intensive. Quantized training improves computational and memory efficiency but introduces quantization noise, which can hinder convergence and degrade model accuracy. Stochastic Rounding (SR) has emerged as a theoretically attractive alternative to deterministic rounding, offering unbiased gradient estimates. However, its interaction with other training factors -- especially batch size -- remains under explored. In this paper, we present a theoretical and empirical study of mini-batch stochastic gradient descent (SGD) with SR, showing that increased batch sizes can compensate for reduced precision during back-propagation. Furthermore, we show that quantizing weights and activations impacts gradient variance in distinct ways. Our experiments validate these theoretical insights.
- Abstract(参考訳): LLMトレーニングはリソース集約型です。
量子化トレーニングは計算とメモリ効率を改善するが、量子化ノイズを導入し、収束を妨げ、モデルの精度を低下させる。
確率的ラウンドリング(SR)は、決定論的ラウンドリングの理論的に魅力的な代替品として現れ、偏りのない勾配推定を提供する。
しかし、他のトレーニングファクター(特にバッチサイズ)とのインタラクションはまだ検討中である。
本稿では、SRを用いたミニバッチ確率勾配降下(SGD)の理論的および実証的研究を行い、バッチサイズの増加がバックプロパゲーションの精度の低下を補うことを示した。
さらに、重みとアクティベーションの定量化が、異なる方法で勾配のばらつきに影響を及ぼすことを示す。
我々の実験はこれらの理論的洞察を検証した。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - Reinforcement learning entangling operations on spin qubits [0.0]
本稿では,半導体ベースのシングルトリップレット量子ビットに対するエンタングリングプロトコルを二重量子ドットで探索するための強化学習手法を提案する。
従来の勾配に基づく手法のモデルバイアスを回避しつつ,RLエージェントが実行プロトコルを生成できることを実証する。
論文 参考訳(メタデータ) (2025-08-20T15:05:38Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Improved Quantization Strategies for Managing Heavy-tailed Gradients in
Distributed Learning [20.91559450517002]
その結果, 勾配分布は重く, アウトレーヤは圧縮戦略の設計に大きく影響していることがわかった。
既存のパラメータ量子化法は、この重み付き特徴が無視されるときに性能劣化を経験する。
重み付き勾配勾配に特化して設計された新しい圧縮スキームを導入し, トラルニケーションと量子化を効果的に組み合わせた。
論文 参考訳(メタデータ) (2024-02-02T06:14:31Z) - A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:48:40Z) - Noise and Fluctuation of Finite Learning Rate Stochastic Gradient
Descent [3.0079490585515343]
勾配降下(SGD)は、消滅する学習率体制において比較的よく理解されている。
SGDとその変異体の基本特性を非退化学習率体系で研究することを提案する。
論文 参考訳(メタデータ) (2020-12-07T12:31:43Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。