Fugu-MT 論文翻訳(概要): QuIP: 2-Bit Quantization of Large Language Models With Guarantees

論文の概要: QuIP: 2-Bit Quantization of Large Language Models With Guarantees

arxiv url: http://arxiv.org/abs/2307.13304v1
Date: Tue, 25 Jul 2023 07:44:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 18:05:51.651593
Title: QuIP: 2-Bit Quantization of Large Language Models With Guarantees
Title（参考訳）: QuIP: 保証付き大規模言語モデルの2ビット量子化
Authors: Jerry Chee, Yaohui Cai, Volodymyr Kuleshov, Christopher De Sa
Abstract要約: 本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。 Incoherence Processing (QuIP) を用いた量子化を導入する。これは、非コヒーレントウェイトとヘッセン行列から量子化が恩恵を受けるという知見に基づく新しい方法である。
参考スコア（独自算出の注目度）: 33.05196521708307
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work studies post-training parameter quantization in large language models (LLMs). We introduce quantization with incoherence processing (QuIP), a new method based on the insight that quantization benefits from incoherent weight and Hessian matrices, i.e., from the weights and the directions in which it is important to round them accurately being unaligned with the coordinate axes. QuIP consists of two steps: (1) an adaptive rounding procedure minimizing a quadratic proxy objective; (2) efficient pre- and post-processing that ensures weight and Hessian incoherence via multiplication by random orthogonal matrices. We complement QuIP with the first theoretical analysis for an LLM-scale quantization algorithm, and show that our theory also applies to an existing method, OPTQ. Empirically, we find that our incoherence preprocessing improves several existing quantization algorithms and yields the first LLM quantization methods that produce viable results using only two bits per weight. Our code can be found at https://github.com/jerry-chee/QuIP .
Abstract（参考訳）: 本研究は,大規模言語モデル(llms)における学習後パラメータ量子化の研究である。そこで本研究では,非コヒーレンス重みとヘッシアン行列,すなわち座標軸と不一致であることの正確性が重要となる重みと方向から量子化が利益をもたらすという洞察に基づく新しい手法である incoherence processing (quip) を用いた量子化について紹介する。 QuIP は,(1) 二次的プロキシの目的を最小化する適応丸め手順,(2) ランダム直交行列による乗算による重み付けとヘッセン不整合を保証する効率的な前処理と後処理の2段階からなる。我々はQuIPをLLMスケール量子化アルゴリズムの最初の理論的解析と補完し、我々の理論が既存の方法であるOPTQにも適用されることを示す。経験的に、我々の非一貫性前処理は既存の量子化アルゴリズムを改良し、1重量あたり2ビットで実行可能な結果を生成する最初の llm 量子化法をもたらす。私たちのコードはhttps://github.com/jerry-chee/QuIP で参照できます。

関連論文リスト

PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。 PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文参考訳（メタデータ） (2024-10-22T11:57:32Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks [37.66253003964376]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。重みのみのPTQ方式であるQuIP#を導入する。実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
論文参考訳（メタデータ） (2024-02-06T20:52:12Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
End-to-end resource analysis for quantum interior point methods and portfolio optimization [63.4863637315163]
問題入力から問題出力までの完全な量子回路レベルのアルゴリズム記述を提供する。アルゴリズムの実行に必要な論理量子ビットの数と非クリフォードTゲートの量/深さを報告する。
論文参考訳（メタデータ） (2022-11-22T18:54:48Z)
Quantum Sparse Coding [5.130440339897477]
我々はスパース符号化のための量子インスピレーション付きアルゴリズムを開発した。量子コンピュータとイジングマシンの出現は、より正確な推定につながる可能性がある。我々はLightrの量子インスパイアされたデジタルプラットフォーム上でシミュレーションデータを用いて数値実験を行う。
論文参考訳（メタデータ） (2022-09-08T13:00:30Z)
Gradient-descent quantum process tomography by learning Kraus operators [63.69764116066747]
離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。我々は、クラウス作用素を得るために、最適化中にいわゆるスティーフェル多様体に対して制約付き勾配-退化(GD)アプローチを用いる。 GD-QPTは、2量子ランダムプロセスを持つベンチマークにおいて、圧縮センシング(CS)と投影最小二乗QPT(PLS)の両方のパフォーマンスと一致する。
論文参考訳（メタデータ） (2022-08-01T12:48:48Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。 2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文参考訳（メタデータ） (2020-01-09T00:01:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。