論文の概要: The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization
- arxiv url: http://arxiv.org/abs/2408.15301v2
- Date: Tue, 1 Oct 2024 09:05:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 04:41:58.291642
- Title: The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization
- Title(参考訳): チャネル当たり量子化を用いたLLaMA3-70Bシリーズの特異性
- Authors: Minghai Qin,
- Abstract要約: 量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。
我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
- 参考スコア(独自算出の注目度): 5.7672452948056545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We have observed a distinctive quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1/3.2-1B/3B/8B/405B models. Quantization is a crucial technique for deploying large language models (LLMs) efficiently. The impact of W8A8 post-training quantization on model accuracy, especially on the recently released LLaMA3/3.1 model series, remains contentious. In this paper, we explore three key questions: What makes the LLaMA3-70B model series uniquely vulnerable to quantization? Why is this the case? And how can the issue be addressed? We empirically investigate multiple LLMs featured on an open LLM leaderboard, discovering that the LLaMA3-70B model series have a unique accuracy degradation behavior with W8A8 per-channel post-training quantization. In contrast, other model series such as LLaMA2, LLaMA3/3.1-8B, LLaMA3.2, Qwen, Mixtral, Mistral, Phi-3, and Falcon demonstrate robust performance with W8A8. Contrary to previous assertions attributing degradation to the large dynamic range of activations, our findings indicate that the weight distribution of the LLaMA3-70B is the primary factor behind the vulnerability. By meticulously analyzing the distinct characteristics of weight distributions across Transformer blocks, we propose two solutions that make different tradeoffs in hardware/software overhead. First, we propose a mixed strategy where less than 3\% of the layers employ finer per-group W8A8 quantization granularity. Second, we introduce a bi-smoothing strategy that balances quantization errors between weights and activations while maintaining per-channel quantization throughout. Experimental results demonstrate that both strategies effectively preserve the accuracy of the entire LLaMA3-70B model series under W8A8 quantization, achieving performance on par with their FP16 counterparts.
- Abstract(参考訳): 我々はLLaMA2/3.1-70BモデルとLLaMA3/3.1/3.2-1B/3B/8B/405Bモデルの両方に欠落しているLLaMA3/3.1-70Bモデルにおいて、特徴的な量子化に関する挙動を観察した。
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。
W8A8後の量子化がモデル精度、特に最近リリースされたLLaMA3/3.1モデルシリーズに与える影響はいまだ議論の余地がある。
本稿では,LLaMA3-70Bモデルシリーズが量子化に一意に弱い理由について述べる。
なぜそうなるのか?
では、この問題にどう対処すればよいのか?
LLaMA3-70B モデルシリーズは,W8A8 チャネル毎の学習後量子化で独自の精度劣化挙動を呈し,オープン LLM リーダーボードに特徴付けられる複数の LLM を実証的に検討した。
対照的に、LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3、Falconといった他のモデルシリーズはW8A8で堅牢な性能を示した。
その結果,LLaMA3-70Bの重量分布が主な要因であることが示唆された。
トランスフォーマーブロック間の重み分布の異なる特性を巧みに解析することにより、ハードウェア/ソフトウェアオーバヘッドの異なるトレードオフを行う2つのソリューションを提案する。
まず,グループごとのW8A8量子化の粒度を3倍に抑える混合戦略を提案する。
第2に、重みとアクティベーションの量子化誤差のバランスを保ちながら、チャネルごとの量子化を全体にわたって維持するバイスムーシング戦略を導入する。
実験結果から,両戦略はW8A8量子化の下でLLaMA3-70Bモデル全体の精度を効果的に保ち,FP16モデルと同等の性能を発揮することが示された。
関連論文リスト
- "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
我々は,学術ベンチマークや実世界のタスクにまたがる一般的な量子化形式を評価する。
W4A16は同期デプロイメントと中間層アーキテクチャの非同期デプロイメントに最適なコスト効率を提供する。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs [27.38239289662178]
学習後量子化(PTQ)は大規模言語モデル(LLM)の効率を向上させる
PTQにおける校正セットの役割,特に隠れ活性化に対する効果について検討する。
我々の分析では、利用可能なモデル間で量子化の有効性に顕著なコントラストが示される。
論文 参考訳(メタデータ) (2024-05-31T14:24:33Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - Sheared LLaMA: Accelerating Language Model Pre-training via Structured Pruning [52.29522018586365]
我々は,事前訓練された大規模モデルからより小型のLCMを開発するための効果的な方法として構造化プルーニングについて検討した。
提案手法では,(1)階層,頭部,中間および隠蔽次元をエンド・ツー・エンドに除去することで,より大きなモデルを特定のターゲット形状にプルーニングするターゲット構造化プルーニングと,(2)各トレーニングバッチにおけるサンプルデータの構成を,異なるドメイン間での損失に基づいて動的に更新する動的バッチローディングという2つの重要な手法を用いる。
論文 参考訳(メタデータ) (2023-10-10T15:13:30Z) - QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。
その動機は量子化と適応の自由の不均衡度にある。
QA-LoRAは数行のコードで簡単に実装できる。
論文 参考訳(メタデータ) (2023-09-26T07:22:23Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。