論文の概要: QuIP: 2-Bit Quantization of Large Language Models With Guarantees
- arxiv url: http://arxiv.org/abs/2307.13304v2
- Date: Mon, 15 Jan 2024 21:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:11:46.840407
- Title: QuIP: 2-Bit Quantization of Large Language Models With Guarantees
- Title(参考訳): QuIP: 保証付き大規模言語モデルの2ビット量子化
- Authors: Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa
- Abstract要約: 本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
- 参考スコア(独自算出の注目度): 44.212441764241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies post-training parameter quantization in large language
models (LLMs). We introduce quantization with incoherence processing (QuIP), a
new method based on the insight that quantization benefits from
$\textit{incoherent}$ weight and Hessian matrices, i.e., from the weights being
even in magnitude and the directions in which it is important to round them
accurately being unaligned with the coordinate axes. QuIP consists of two
steps: (1) an adaptive rounding procedure minimizing a quadratic proxy
objective; (2) efficient pre- and post-processing that ensures weight and
Hessian incoherence via multiplication by random orthogonal matrices. We
complement QuIP with the first theoretical analysis for an LLM-scale
quantization algorithm, and show that our theory also applies to an existing
method, OPTQ. Empirically, we find that our incoherence preprocessing improves
several existing quantization algorithms and yields the first LLM quantization
methods that produce viable results using only two bits per weight. Our code
can be found at https://github.com/Cornell-RelaxML/QuIP.
- Abstract(参考訳): 本研究は,大規模言語モデル(llms)における学習後パラメータ量子化の研究である。
Incoherence Processing (QuIP) を用いた量子化(quantization)を導入する。これは$\textit{incoherent}$ weight と Hessian matrices から得られる量子化の利点、すなわち、重みが等しく、座標軸と正確に整合しないことが重要となる方向からである。
QuIP は,(1) 二次的プロキシの目的を最小化する適応丸め手順,(2) ランダム直交行列による乗算による重み付けとヘッセン不整合を保証する効率的な前処理と後処理の2段階からなる。
我々はQuIPをLLMスケール量子化アルゴリズムの最初の理論的解析と補完し、我々の理論が既存の方法であるOPTQにも適用されることを示す。
経験的に、我々の非一貫性前処理は既存の量子化アルゴリズムを改良し、1重量あたり2ビットで実行可能な結果を生成する最初の llm 量子化法をもたらす。
私たちのコードはhttps://github.com/Cornell-RelaxML/QuIPで確認できます。
関連論文リスト
- Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks [37.66253003964376]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
重みのみのPTQ方式であるQuIP#を導入する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
論文 参考訳(メタデータ) (2024-02-06T20:52:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。
量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。
我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-09-08T13:00:30Z) - Gradient-descent quantum process tomography by learning Kraus operators [63.69764116066747]
離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。
我々は、クラウス作用素を得るために、最適化中にいわゆるスティーフェル多様体に対して制約付き勾配-退化(GD)アプローチを用いる。
GD-QPTは、2量子ランダムプロセスを持つベンチマークにおいて、圧縮センシング(CS)と投影最小二乗QPT(PLS)の両方のパフォーマンスと一致する。
論文 参考訳(メタデータ) (2022-08-01T12:48:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。