論文の概要: The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization
- arxiv url: http://arxiv.org/abs/2408.15301v2
- Date: Tue, 01 Oct 2024 09:05:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:26.048988
- Title: The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization
- Title(参考訳): チャネル当たり量子化を用いたLLaMA3-70Bシリーズの特異性
- Authors: Minghai Qin,
- Abstract要約: 量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。
我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
- 参考スコア(独自算出の注目度): 5.7672452948056545
- License:
- Abstract: We have observed a distinctive quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1/3.2-1B/3B/8B/405B models. Quantization is a crucial technique for deploying large language models (LLMs) efficiently. The impact of W8A8 post-training quantization on model accuracy, especially on the recently released LLaMA3/3.1 model series, remains contentious. In this paper, we explore three key questions: What makes the LLaMA3-70B model series uniquely vulnerable to quantization? Why is this the case? And how can the issue be addressed? We empirically investigate multiple LLMs featured on an open LLM leaderboard, discovering that the LLaMA3-70B model series have a unique accuracy degradation behavior with W8A8 per-channel post-training quantization. In contrast, other model series such as LLaMA2, LLaMA3/3.1-8B, LLaMA3.2, Qwen, Mixtral, Mistral, Phi-3, and Falcon demonstrate robust performance with W8A8. Contrary to previous assertions attributing degradation to the large dynamic range of activations, our findings indicate that the weight distribution of the LLaMA3-70B is the primary factor behind the vulnerability. By meticulously analyzing the distinct characteristics of weight distributions across Transformer blocks, we propose two solutions that make different tradeoffs in hardware/software overhead. First, we propose a mixed strategy where less than 3\% of the layers employ finer per-group W8A8 quantization granularity. Second, we introduce a bi-smoothing strategy that balances quantization errors between weights and activations while maintaining per-channel quantization throughout. Experimental results demonstrate that both strategies effectively preserve the accuracy of the entire LLaMA3-70B model series under W8A8 quantization, achieving performance on par with their FP16 counterparts.
- Abstract(参考訳): 我々はLLaMA2/3.1-70BモデルとLLaMA3/3.1/3.2-1B/3B/8B/405Bモデルの両方に欠落しているLLaMA3/3.1-70Bモデルにおいて、特徴的な量子化に関する挙動を観察した。
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度、特に最近リリースされたLLaMA3/3.1モデルシリーズに与える影響はいまだ議論の余地がある。
本稿では,LLaMA3-70Bモデルシリーズが量子化に一意に弱い理由について述べる。
なぜそうなるのか?
では、この問題にどう対処すればよいのか?
LLaMA3-70B モデルシリーズは,W8A8 チャネル毎の学習後量子化で独自の精度劣化挙動を呈し,オープン LLM リーダーボードに特徴付けられる複数の LLM を実証的に検討した。
対照的に、LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3、Falconといった他のモデルシリーズはW8A8で堅牢な性能を示した。
その結果,LLaMA3-70Bの重量分布が主な要因であることが示唆された。
トランスフォーマーブロック間の重み分布の異なる特性を巧みに解析することにより、ハードウェア/ソフトウェアオーバヘッドの異なるトレードオフを行う2つのソリューションを提案する。
まず,グループごとのW8A8量子化の粒度を3倍に抑える混合戦略を提案する。
第2に、重みとアクティベーションの量子化誤差のバランスを保ちながら、チャネルごとの量子化を全体にわたって維持するバイスムーシング戦略を導入する。
実験結果から,両戦略はW8A8量子化の下でLLaMA3-70Bモデル全体の精度を効果的に保ち,FP16モデルと同等の性能を発揮することが示された。
関連論文リスト
- EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [62.904403513409484]
大規模言語モデル(LLM)は、現代の自然言語処理や人工知能に不可欠なものである。
LLMを圧縮する新しい量子化手法であるEfficientQAT(Efficient Quantization-Aware Training)を提案する。
広範囲な実験により、EfficientQATは、様々なモデルで以前の量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs [27.38239289662178]
学習後量子化(PTQ)は大規模言語モデル(LLM)の効率を向上させる
PTQにおける校正セットの役割,特に隠れ活性化に対する効果について検討する。
我々の分析では、利用可能なモデル間で量子化の有効性に顕著なコントラストが示される。
論文 参考訳(メタデータ) (2024-05-31T14:24:33Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。
既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。
本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - An Empirical Study of LLaMA3 Quantization: From LLMs to MLLMs [54.91212829143966]
本研究では、LLaMA3の低ビット幅への量子化能力について検討する。
我々は,LLaMA3の1-8ビットおよび多種多様なデータセットに対して,学習後量子化とLLaMA3のLoRAファインタニング法を10種類評価した。
実験の結果,LLaMA3は言語的・視覚的文脈において,相変わらず非言語的劣化をきたしていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - QLLM: Accurate and Efficient Low-Bitwidth Quantization for Large Language Models [44.515165695546614]
量子化アウェアトレーニング(QAT)はソリューションを提供するが、トレーニング後の量子化(PTQ)は大規模言語モデル(LLM)のより実践的なアプローチとなる。
LLM向けに設計された高精度かつ効率的な低ビット幅PTQ法QLLMを提案する。
論文 参考訳(メタデータ) (2023-10-12T05:25:49Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。