論文の概要: Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
- arxiv url: http://arxiv.org/abs/2407.12327v2
- Date: Fri, 11 Oct 2024 04:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 20:48:00.713907
- Title: Spectra: A Comprehensive Study of Ternary, Quantized, and FP16 Language Models
- Title(参考訳): スペクトル: 3次・量子化・FP16言語モデルに関する総合的研究
- Authors: Ayush Kaushal, Tejas Vaidhya, Tejas Pandey, Aaryan Bhagat, Irina Rish,
- Abstract要約: 99Mから3.9Bのパラメータから、300Bトークンでトレーニングされた54の言語モデルからなるSpectra LLMスイートをリリースする。
スペクトルには、FloatLM、後トレーニング量子化されたQuantLM(3, 4, 6, 8bits)、および3次LLM(TriLMs)が含まれる。
TriLM 3.9Bは6倍の大きさのモデルであるFloatLM 3.9Bと同じくらい毒性があり、立体タイプである。
- 参考スコア(独自算出の注目度): 12.851332637585156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization is the leading method for addressing memory-related bottlenecks in LLM inference, but unfortunately, it suffers from significant performance degradation below 4-bit precision. An alternative approach involves training compressed models directly at a low bitwidth (e.g., binary or ternary models). However, the performance, training dynamics, and scaling trends of such models are not yet well understood. To address this issue, we train and openly release the Spectra LLM suite consisting of 54 language models ranging from 99M to 3.9B parameters, trained on 300B tokens. Spectra includes FloatLMs, post-training quantized QuantLMs (3, 4, 6, and 8 bits), and ternary LLMs (TriLMs) - our improved architecture for ternary language modeling, which significantly outperforms previously proposed ternary models of a given size (in bits), matching half-precision models at scale. For example, TriLM 3.9B is (bit-wise) smaller than the half-precision FloatLM 830M, but matches half-precision FloatLM 3.9B in commonsense reasoning and knowledge benchmarks. However, TriLM 3.9B is also as toxic and stereotyping as FloatLM 3.9B, a model six times larger in size. Additionally, TriLM 3.9B lags behind FloatLM in perplexity on validation splits and web-based corpora but performs better on less noisy datasets like Lambada and PennTreeBank. To enhance understanding of low-bitwidth models, we are releasing 500+ intermediate checkpoints of the Spectra suite at \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite}.
- Abstract(参考訳): 後学習量子化は、LLM推論におけるメモリ関連ボトルネックに対処する主要な手法であるが、残念ながら、4ビットの精度よりも大きな性能劣化に悩まされている。
別のアプローチでは、圧縮されたモデルを低ビット幅(例えば、バイナリまたは3次モデル)で直接訓練する。
しかし、そのようなモデルの性能、トレーニングのダイナミクス、スケーリングの傾向はまだよく分かっていない。
この問題に対処するため、99Mから3.9Bパラメータを含む54の言語モデルで構成され、300BトークンでトレーニングされたSpectra LLMスイートをトレーニングし、公開リリースする。
スペクトルには、FloatLMs、ポストトレーニング後の量子化QuantLMs (3, 4, 6, 8 bits)、および3次LLMs (TriLMs)が含まれる。
例えば、TriLM 3.9Bは半精度FloatLM 830Mより小さいが、常識推論と知識ベンチマークでは半精度FloatLM 3.9Bと一致する。
しかし、TriLM 3.9Bは6倍の大きさのモデルであるFloatLM 3.9Bと同じくらい毒性があり、ステレオタイピングである。
さらに、TriLM 3.9Bは、検証分割とWebベースのコーパスの難易度でFloatLMに遅れをとっているが、LambadaやPennTreeBankのようなあまりノイズの少ないデータセットではパフォーマンスが良くなっている。
低ビット幅モデルの理解を深めるため、私たちはSpectraスイートの500以上の中間チェックポイントを \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} でリリースしています。
関連論文リスト
- Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Scalable MatMul-free Language Modeling [8.672867887354977]
MatMul操作は大規模言語モデルから完全に除去可能であることを示す。
提案するMatMulフリーモデルは,最先端のトランスフォーマーと同等の性能を実現する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。