論文の概要: QuIP: 2-Bit Quantization of Large Language Models With Guarantees
- arxiv url: http://arxiv.org/abs/2307.13304v2
- Date: Mon, 15 Jan 2024 21:54:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 02:11:46.840407
- Title: QuIP: 2-Bit Quantization of Large Language Models With Guarantees
- Title(参考訳): QuIP: 保証付き大規模言語モデルの2ビット量子化
- Authors: Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa
- Abstract要約: 本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
- 参考スコア(独自算出の注目度): 44.212441764241
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work studies post-training parameter quantization in large language
models (LLMs). We introduce quantization with incoherence processing (QuIP), a
new method based on the insight that quantization benefits from
$\textit{incoherent}$ weight and Hessian matrices, i.e., from the weights being
even in magnitude and the directions in which it is important to round them
accurately being unaligned with the coordinate axes. QuIP consists of two
steps: (1) an adaptive rounding procedure minimizing a quadratic proxy
objective; (2) efficient pre- and post-processing that ensures weight and
Hessian incoherence via multiplication by random orthogonal matrices. We
complement QuIP with the first theoretical analysis for an LLM-scale
quantization algorithm, and show that our theory also applies to an existing
method, OPTQ. Empirically, we find that our incoherence preprocessing improves
several existing quantization algorithms and yields the first LLM quantization
methods that produce viable results using only two bits per weight. Our code
can be found at https://github.com/Cornell-RelaxML/QuIP.
- Abstract(参考訳): 本研究は,大規模言語モデル(llms)における学習後パラメータ量子化の研究である。
Incoherence Processing (QuIP) を用いた量子化(quantization)を導入する。これは$\textit{incoherent}$ weight と Hessian matrices から得られる量子化の利点、すなわち、重みが等しく、座標軸と正確に整合しないことが重要となる方向からである。
QuIP は,(1) 二次的プロキシの目的を最小化する適応丸め手順,(2) ランダム直交行列による乗算による重み付けとヘッセン不整合を保証する効率的な前処理と後処理の2段階からなる。
我々はQuIPをLLMスケール量子化アルゴリズムの最初の理論的解析と補完し、我々の理論が既存の方法であるOPTQにも適用されることを示す。
経験的に、我々の非一貫性前処理は既存の量子化アルゴリズムを改良し、1重量あたり2ビットで実行可能な結果を生成する最初の llm 量子化法をもたらす。
私たちのコードはhttps://github.com/Cornell-RelaxML/QuIPで確認できます。
関連論文リスト
- OneBit: Towards Extremely Low-bit Large Language Models [69.15388378646395]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは、堅牢なトレーニングプロセスで優れたパフォーマンス(少なくとも、非量子化パフォーマンスの83%)を達成する。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - QuIP#: Even Better LLM Quantization with Hadamard Incoherence and
Lattice Codebooks [40.406092974710525]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
重みのみのPTQ方式であるQuIP#を導入する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
論文 参考訳(メタデータ) (2024-02-06T20:52:12Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - End-to-end resource analysis for quantum interior point methods and
portfolio optimization [92.13478140615481]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。
アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文 参考訳(メタデータ) (2022-11-22T18:54:48Z) - Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。
量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。
我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文 参考訳(メタデータ) (2022-09-08T13:00:30Z) - Gradient-descent quantum process tomography by learning Kraus operators [63.69764116066747]
離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。
我々は、クラウス作用素を得るために、最適化中にいわゆるスティーフェル多様体に対して制約付き勾配-退化(GD)アプローチを用いる。
GD-QPTは、2量子ランダムプロセスを持つベンチマークにおいて、圧縮センシング(CS)と投影最小二乗QPT(PLS)の両方のパフォーマンスと一致する。
論文 参考訳(メタデータ) (2022-08-01T12:48:48Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。