論文の概要: Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
- arxiv url: http://arxiv.org/abs/2411.17691v1
- Date: Tue, 26 Nov 2024 18:57:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:09.659210
- Title: Low-Bit Quantization Favors Undertrained LLMs: Scaling Laws for Quantized LLMs with 100T Training Tokens
- Title(参考訳): 低ビット量子化によるLLMの学習条件:100Tトレーニングトークンを用いた量子化LLMのスケーリング法則
- Authors: Xu Ouyang, Tao Ge, Thomas Hartvigsen, Zhisong Zhang, Haitao Mi, Dong Yu,
- Abstract要約: 1500以上の量子化大言語モデル(LLM)を制御された環境で研究する。
我々は,QiDとトレーニングトークン数,モデルサイズ,ビット幅などの要因との関係を理解するためのスケーリング法則を導出する。
予測では,100兆以上のトークンでトレーニングされるであろう将来のモデルの低ビット量子化性能は望ましくないと考えられる。
- 参考スコア(独自算出の注目度): 49.14606711789486
- License:
- Abstract: We reveal that low-bit quantization favors undertrained large language models (LLMs) by observing that models with larger sizes or fewer training tokens experience less quantization-induced degradation (QiD) when applying low-bit quantization, whereas smaller models with extensive training tokens suffer significant QiD. To gain deeper insights into this trend, we study over 1500 quantized LLM checkpoints of various sizes and at different training levels (undertrained or fully trained) in a controlled setting, deriving scaling laws for understanding the relationship between QiD and factors such as the number of training tokens, model size and bit width. With the derived scaling laws, we propose a novel perspective that we can use QiD to measure an LLM's training levels and determine the number of training tokens required for fully training LLMs of various sizes. Moreover, we use the scaling laws to predict the quantization performance of different-sized LLMs trained with 100 trillion tokens. Our projection shows that the low-bit quantization performance of future models, which are expected to be trained with over 100 trillion tokens, may NOT be desirable. This poses a potential challenge for low-bit quantization in the future and highlights the need for awareness of a model's training level when evaluating low-bit quantization research. To facilitate future research on this problem, we release all the 1500+ quantized checkpoints used in this work at https://huggingface.co/Xu-Ouyang.
- Abstract(参考訳): 我々は、低ビット量子化を適用する場合、大小小のトレーニングトークンが少ないモデルでは量子化による劣化(QiD)が小さくなるのに対して、広範囲のトレーニングトークンを持つ小さなモデルではQiDが著しく低下することを観察することによって、低ビット量子化が訓練対象の大規模言語モデル(LLM)に有利であることが明らかにした。
この傾向についてより深い知見を得るために、我々は、QiDとトレーニングトークン数、モデルサイズ、ビット幅などの要因との関係を理解するためのスケーリング法則を導出し、様々なサイズおよび異なるトレーニングレベル(訓練中または完全に訓練中)で1500以上の量子化LSMチェックポイントについて研究した。
スケーリング法則の導出により、我々はQiDを用いてLLMのトレーニングレベルを測定し、様々なサイズのLLMをフルトレーニングするのに必要なトレーニングトークンの数を決定することができるという新しい視点を提案する。
さらに,100兆個のトークンでトレーニングした異なるサイズのLLMの量子化性能を,スケーリング法則を用いて予測する。
予測では,100兆以上のトークンでトレーニングされるであろう将来のモデルの低ビット量子化性能は望ましくないと考えられる。
これは将来、低ビット量子化の潜在的な課題であり、低ビット量子化の研究を評価する際にモデルのトレーニングレベルを認識する必要性を強調している。
この問題の今後の研究を容易にするため、この研究で使用される1500以上の量子化されたチェックポイントをhttps://huggingface.co/Xu-Ouyangでリリースする。
関連論文リスト
- Scaling laws for post-training quantized large language models [41.78467383320145]
良く訓練された大言語モデル(LLM)の一般化能力は、モデルサイズの関数として予測可能であることが知られている。
後処理後圧縮後のLCMの品質は予測不可能であり,ケースバイケースの検証が必要となることが多い。
論文 参考訳(メタデータ) (2024-10-15T23:34:22Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Evaluating Quantized Large Language Models [17.906969417140505]
学習後量子化(PTQ)は,大規模言語モデル(LLM)のコスト削減のための有望な手法として登場した。
本稿では,PTQがOPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma, Mambaを含む11種類のモデルファミリに与える影響を評価することにより,これらの因子の徹底的な評価を行う。
論文 参考訳(メタデータ) (2024-02-28T08:43:05Z) - PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。
本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文 参考訳(メタデータ) (2023-09-29T14:35:27Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - Do Emergent Abilities Exist in Quantized Large Language Models: An
Empirical Study [90.34226812493083]
本研究の目的は,LLMを小言語モデルと区別する重要な特徴である現象能力に対する量子化の影響を検討することである。
実験により、これらの創発能力は4ビット量子化モデルに残っており、2ビットモデルは深刻な性能劣化に直面していることがわかった。
低ビットモデルの性能向上のために,(1) 部品(またはサブ構造)が量子化に敏感である場合の微視的影響解析,(2) モデル微視化による性能補償の2つの実験を行った。
論文 参考訳(メタデータ) (2023-07-16T15:11:01Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。