論文の概要: QuIP#: Even Better LLM Quantization with Hadamard Incoherence and
Lattice Codebooks
- arxiv url: http://arxiv.org/abs/2402.04396v1
- Date: Tue, 6 Feb 2024 20:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-08 17:55:16.585109
- Title: QuIP#: Even Better LLM Quantization with Hadamard Incoherence and
Lattice Codebooks
- Title(参考訳): QuIP#: Adamard IncoherenceとLattice CodebookによるLLM量子化をさらに改善
- Authors: Albert Tseng, Jerry Chee, Qingyao Sun, Volodymyr Kuleshov, Christopher
De Sa
- Abstract要約: 後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
重みのみのPTQ方式であるQuIP#を導入する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
- 参考スコア(独自算出の注目度): 40.406092974710525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) reduces the memory footprint of LLMs by
quantizing their weights to low-precision. In this work, we introduce QuIP#, a
weight-only PTQ method that achieves state-of-the-art results in extreme
compression regimes ($\le$ 4 bits per weight) using three novel techniques.
First, QuIP# improves the incoherence processing from QuIP by using the
randomized Hadamard transform, which is faster and has better theoretical
properties. Second, QuIP# uses vector quantization techniques to take advantage
of the ball-shaped sub-Gaussian distribution that incoherent weights possess:
specifically, we introduce a set of hardware-efficient codebooks based on the
highly symmetric $E_8$ lattice, which achieves the optimal 8-dimension unit
ball packing. Third, QuIP# uses fine-tuning to improve fidelity to the original
model. Our experiments show that QuIP# outperforms existing PTQ methods,
enables new behaviors in PTQ scaling, and supports fast inference.
- Abstract(参考訳): 後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
本稿では,重みのみのptqメソッドであるquip#について紹介する。このメソッドは3つの新しい手法を用いて,最先端の圧縮機構(重量あたり4ビット)を実現する。
第一に、QuIP#はランダム化されたアダマール変換を用いてQuIPから不整合処理を改善する。
第二に、quip#はベクトル量子化技術を使って、無干渉重みを持つ球形のサブガウシアン分布を利用する:具体的には、最適な8次元単位球充填を達成する、高対称な$e_8$格子に基づく、ハードウェア効率のよいコードブックのセットを導入する。
第3に、QuIP#はファインチューニングを使用して、オリジナルのモデルの忠実性を改善する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
関連論文リスト
- Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - QuIP: 2-Bit Quantization of Large Language Models With Guarantees [44.212441764241]
本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
論文 参考訳(メタデータ) (2023-07-25T07:44:06Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。