論文の概要: Scaling Laws for Floating Point Quantization Training
- arxiv url: http://arxiv.org/abs/2501.02423v1
- Date: Sun, 05 Jan 2025 02:30:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:08:14.146625
- Title: Scaling Laws for Floating Point Quantization Training
- Title(参考訳): 浮動小数点量子化訓練におけるスケーリング法則
- Authors: Xingwu Sun, Shuaipeng Li, Ruobing Xie, Weidong Han, Kan Wu, Zhen Yang, Yixing Li, An Wang, Shuai Li, Jinbao Xue, Yu Cheng, Yangyu Tao, Zhanhui Kang, Chengzhong Xu, Di Wang, Jie Jiang,
- Abstract要約: 低精度トレーニングは、トレーニングと下流推論コストの削減に有効な戦略と考えられている。
本稿では,浮動小数点量子化目標,指数ビット,マティーサビットの影響,および浮動小数点量子化訓練におけるスケーリング係数の算出について,徹底的に検討する。
- 参考スコア(独自算出の注目度): 47.174957621592775
- License:
- Abstract: Low-precision training is considered an effective strategy for reducing both training and downstream inference costs. Previous scaling laws for precision mainly focus on integer quantization, which pay less attention to the constituents in floating-point quantization and thus cannot well fit the LLM losses in this scenario. In contrast, while floating-point quantization training is more commonly implemented in production, the research on it has been relatively superficial. In this paper, we thoroughly explore the effects of floating-point quantization targets, exponent bits, mantissa bits, and the calculation granularity of the scaling factor in floating-point quantization training performance of LLM models. While presenting an accurate floating-point quantization unified scaling law, we also provide valuable suggestions for the community: (1) Exponent bits contribute slightly more to the model performance than mantissa bits. We provide the optimal exponent-mantissa bit ratio for different bit numbers, which is available for future reference by hardware manufacturers; (2) We discover the formation of the critical data size in low-precision LLM training. Too much training data exceeding the critical data size will inversely bring in degradation of LLM performance; (3) The optimal floating-point quantization precision is directly proportional to the computational power, but within a wide computational power range, we estimate that the best cost-performance precision lies between 4-8 bits.
- Abstract(参考訳): 低精度トレーニングは、トレーニングと下流推論コストの削減に有効な戦略と考えられている。
従来のスケール法則は主に整数量子化に重点を置いており、浮動小数点量子化の構成要素にはあまり注意を払わず、そのためこのシナリオではLSMの損失に十分収まらない。
対照的に、浮動小数点量子化訓練はプロダクションで一般的に実施されているが、その研究は比較的表面的である。
本稿では,浮動小数点量子化学習性能における浮動小数点量子化目標,指数小数点ビット,マティーサビット,およびスケーリング係数の計算粒度の影響を徹底的に検討する。
正確な浮動小数点量子化統合スケーリング法を提示する一方で,(1)指数ビットはマニサビットよりもモデル性能に少し貢献する。
ハードウェアメーカーが将来の参照に利用できるビット数に対して最適な指数-行列ビット比を提供する; (2)低精度LDMトレーニングにおける臨界データサイズの形成を発見する。
最適浮動小数点量子化精度は計算力と直接比例するが,計算能力範囲が広い場合には,最大費用対効果精度は4~8ビット程度と推定される。
関連論文リスト
- RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [95.32315448601241]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
本稿では,バックプロパゲーション中のストレートスルー推定器に頼ることなく,量子化低精度行列を直接更新する可能性について検討する。
LLaMA構造モデルによる実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
私たちのモデルは3次重みを使って推論も行えます。
論文 参考訳(メタデータ) (2024-12-06T05:41:11Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Scaling Laws for Mixed quantization in Large Language Models [10.912306313183972]
大規模言語モデル(LLM)の学習後の量子化は、これらのモデルで推論を実行する際の計算量の削減に有効であることが証明されている。
本研究では,低精度量子化のための特定の精度やパープレキシティターゲットを目指している場合,LLMを大規模化する際に,高い精度の数値や計算がいくつ必要か,という簡単な問題に焦点をあてる。
論文 参考訳(メタデータ) (2024-10-09T09:45:01Z) - AlignedKV: Reducing Memory Access of KV-Cache with Precision-Aligned Quantization [5.572159724234467]
混合精度量子化は重要なパラメータと重要でないパラメータを区別する。
既存の手法は定性的分析と手動実験によってのみ重要なパラメータを識別できる。
本稿では,パラメータの重要性を総合的に評価する定量的枠組みを構築するために,いわゆる「精度アライメント」という新しい基準を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:39:02Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Low-Precision Floating-Point for Efficient On-Board Deep Neural Network
Processing [0.9374652839580183]
本研究では,低精度(ミニ)浮動小数点演算と量子化学習法を組み合わせる方法について検討する。
その結果,6ビット浮動小数点量子化は重みとアクティベーションの両方において単一精度と競合できることがわかった。
初期のハードウェア研究は、そのような低精度浮動小数点設計の潜在的影響も確認した。
論文 参考訳(メタデータ) (2023-11-18T21:36:52Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。