論文の概要: Training with Fewer Bits: Unlocking Edge LLMs Training with Stochastic Rounding
- arxiv url: http://arxiv.org/abs/2511.00874v1
- Date: Sun, 02 Nov 2025 09:49:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.974452
- Title: Training with Fewer Bits: Unlocking Edge LLMs Training with Stochastic Rounding
- Title(参考訳): 低ビットによるトレーニング:確率ラウンドリングによるエッジLDMのアンロック
- Authors: Taowen Liu, Marta Andronic, Deniz Gündüz, George A. Constantinides,
- Abstract要約: 量子化トレーニングは計算とメモリ効率を改善するが、量子化ノイズを導入する。
バッチサイズの増加は、バックプロパゲーション時の精度の低下を補うことができることを示す。
また、重みとアクティベーションの定量化が、異なる方法で勾配のばらつきに影響を与えることも示している。
- 参考スコア(独自算出の注目度): 37.30928503608494
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: LLM training is resource-intensive. Quantized training improves computational and memory efficiency but introduces quantization noise, which can hinder convergence and degrade model accuracy. Stochastic Rounding (SR) has emerged as a theoretically attractive alternative to deterministic rounding, offering unbiased gradient estimates. However, its interaction with other training factors -- especially batch size -- remains under explored. In this paper, we present a theoretical and empirical study of mini-batch stochastic gradient descent (SGD) with SR, showing that increased batch sizes can compensate for reduced precision during back-propagation. Furthermore, we show that quantizing weights and activations impacts gradient variance in distinct ways. Our experiments validate these theoretical insights.
- Abstract(参考訳): LLMトレーニングはリソース集約型です。
量子化トレーニングは計算とメモリ効率を改善するが、量子化ノイズを導入し、収束を妨げ、モデルの精度を低下させる。
確率的ラウンドリング(SR)は、決定論的ラウンドリングの理論的に魅力的な代替品として現れ、偏りのない勾配推定を提供する。
しかし、他のトレーニングファクター(特にバッチサイズ)とのインタラクションはまだ検討中である。
本稿では、SRを用いたミニバッチ確率勾配降下(SGD)の理論的および実証的研究を行い、バッチサイズの増加がバックプロパゲーションの精度の低下を補うことを示した。
さらに、重みとアクティベーションの定量化が、異なる方法で勾配のばらつきに影響を及ぼすことを示す。
我々の実験はこれらの理論的洞察を検証した。
関連論文リスト
- CurES: From Gradient Analysis to Efficient Curriculum Learning for Reasoning LLMs [53.749193998004166]
カリキュラム学習は,大規模言語モデルの学習効率を高める上で重要な役割を担っている。
収束を加速し,計算オーバーヘッドを最小限に抑えるためにベイズ後続推定を用いた効率的な学習法であるCurESを提案する。
論文 参考訳(メタデータ) (2025-10-01T15:41:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:48:40Z) - Reintroducing Straight-Through Estimators as Principled Methods for
Stochastic Binary Networks [85.94999581306827]
2重みとアクティベーションを持つニューラルネットワークのトレーニングは、勾配の欠如と離散重みよりも最適化が難しいため、難しい問題である。
多くの実験結果が経験的ストレートスルー(ST)アプローチで達成されている。
同時に、ST法はベルヌーイ重みを持つバイナリネットワーク(SBN)モデルにおける推定子として真に導出することができる。
論文 参考訳(メタデータ) (2020-06-11T23:58:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。