論文の概要: QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition
- arxiv url: http://arxiv.org/abs/2503.19353v1
- Date: Tue, 25 Mar 2025 05:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:01.812470
- Title: QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition
- Title(参考訳): QuaD: 活性化分解によるLDMの量子化とパラメータ効率チューニング
- Authors: Yuxuan Hu, Xiaodong Chen, Cuiping Li, Hong Chen, Jing Zhang,
- Abstract要約: QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。
W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
- 参考スコア(独自算出の注目度): 21.13478769431063
- License:
- Abstract: Large Language Models (LLMs) excel in diverse applications but suffer inefficiency due to massive scale. While quantization reduces computational costs, existing methods degrade accuracy in medium-sized LLMs (e.g., Llama-3-8B) due to activation outliers. To address this, we propose QUAD (Quantization with Activation Decomposition), a framework leveraging Singular Value Decomposition (SVD) to suppress activation outliers for effective 4-bit quantization. QUAD estimates activation singular vectors offline using calibration data to construct an orthogonal transformation matrix P, shifting outliers to additional dimensions in full precision while quantizing rest components to 4-bit. Additionally, QUAD enables parameter-efficient fine-tuning via adaptable full-precision outlier weights, narrowing the accuracy gap between quantized and full-precision models. Experiments demonstrate that QUAD achieves 94% ~ 96% accuracy under W4A4 quantization and 98% accuracy with W4A4/A8 and parameter-efficient fine-tuning for Llama-3 and Qwen-2.5 models. Our code is available at \href{https://github.com/hyx1999/Quad}{repository}.
- Abstract(参考訳): 大規模言語モデル(LLM)は多様なアプリケーションで優れるが、大規模化によって非効率に悩まされる。
量子化は計算コストを低減させるが、既存の手法ではアクティベーションアウトレイアによって中規模のLLM(例えばLlama-3-8B)の精度を低下させる。
そこで本研究では,Singular Value Decomposition (SVD) を利用して,有効4ビット量子化のためのアクティベーションアウトリアを抑制する QUAD (Quantization with Activation Decomposition) を提案する。
QuaD はキャリブレーションデータを用いてオフラインでアクティベーション特異ベクトルを推定し、直交変換行列 P を構築する。
さらに、QUIDは適応可能な完全精度のアウトリーフウェイトによるパラメータ効率の良い微調整を可能にし、量子化モデルと完全精度モデルの精度ギャップを狭める。
実験により、QUIDはW4A4量子化下で94%~96%の精度、W4A4/A8での98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の良い微調整を実現している。
私たちのコードは \href{https://github.com/hyx 1999/Quad}{repository} で利用可能です。
関連論文リスト
- AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
高速な大規模言語モデル推論のための非対称マイクロスケーリング4ビット浮動小数点(AMXFP4)を提案する。
データ・ローテーションとコスト・キャリブレーションに依存する従来の4ビット量子化法とは異なり、AMXFP4は4ビット直接鋳造に非対称な共有スケールを使用する。
私たちのAMXFP4フォーマットはMXFP4や他の主要な量子化技術よりも優れており、ロバストでキャリブレーションのない4ビットの推論を可能にします。
論文 参考訳(メタデータ) (2024-11-15T03:11:19Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - BiSup: Bidirectional Quantization Error Suppression for Large Language Models [13.042992673384466]
本稿では,双方向量子化誤差抑圧法であるBiSupを紹介する。
BiSupは2つの最先端手法で性能を向上できることを示す。
論文 参考訳(メタデータ) (2024-05-24T08:39:27Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。
本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。
我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文 参考訳(メタデータ) (2023-11-09T06:19:51Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。