論文の概要: QTIP: Quantization with Trellises and Incoherence Processing
- arxiv url: http://arxiv.org/abs/2406.11235v2
- Date: Mon, 28 Oct 2024 03:01:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:13:25.050970
- Title: QTIP: Quantization with Trellises and Incoherence Processing
- Title(参考訳): QTIP:トレライズとインコヒーレンス処理による量子化
- Authors: Albert Tseng, Qingyao Sun, David Hou, Christopher De Sa,
- Abstract要約: 後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを削減する。
最近の最先端のPTQアプローチでは、ベクトル量子化(VQ)を使用して複数の重みを同時に定量化している。
超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを導入する。
- 参考スコア(独自算出の注目度): 29.917017118524246
- License:
- Abstract: Post-training quantization (PTQ) reduces the memory footprint of LLMs by quantizing weights to low-precision datatypes. Since LLM inference is usually memory-bound, PTQ methods can improve inference throughput. Recent state-of-the-art PTQ approaches use vector quantization (VQ) to quantize multiple weights at once, which improves information utilization through better shaping. However, VQ requires a codebook with size exponential in the dimension. This limits current VQ-based PTQ works to low VQ dimensions ($\le 8$) that in turn limit quantization quality. Here, we introduce QTIP, which instead uses trellis coded quantization (TCQ) to achieve ultra-high-dimensional quantization. TCQ uses a stateful decoder that separates the codebook size from the bitrate and effective dimension. QTIP introduces a spectrum of lookup-only to computed lookup-free trellis codes designed for a hardware-efficient "bitshift" trellis structure; these codes achieve state-of-the-art results in both quantization quality and inference speed.
- Abstract(参考訳): 後トレーニング量子化(PTQ)は、重みを低精度のデータタイプに量子化することにより、LCMのメモリフットプリントを削減する。
LLM推論は通常メモリバウンドであるので、PTQ法は推論スループットを向上させることができる。
最近の最先端のPTQアプローチではベクトル量子化(VQ)を用いて複数の重みを同時に定量化し、より優れた整形によって情報利用を改善する。
しかし、VQはサイズが指数関数的なコードブックを必要とする。
これにより、現在のVQベースのPTQは、量子化品質を制限する低VQ次元(\le 8$)に作用する。
本稿では,超高次元量子化を実現するためにトレリス符号化量子化(TCQ)を用いるQTIPを紹介する。
TCQはステートフルなデコーダを使用して、コードブックのサイズをビットレートと有効次元から分離する。
QTIPは、ハードウェア効率の良い"ビットシフト"トレリス構造のために設計された、ルックアップのみから計算されたルックアップフリートレリスコードにスペクトルを導入し、これらのコードは量子化品質と推論速度の両方で最先端の結果を達成する。
関連論文リスト
- GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - LCQ: Low-Rank Codebook based Quantization for Large Language Models [12.004172212239848]
大規模言語モデルに対する低ランクコードブックに基づく量子化を提案する。
実験の結果,LCQ はストレージコストが比較的高い既存手法よりも精度がよいことがわかった。
論文 参考訳(メタデータ) (2024-05-31T16:21:05Z) - GPTVQ: The Blessing of Dimensionality for LLM Quantization [16.585681547799762]
ニューラルネットワーク量子化のサイズと精度のトレードオフは、量子化次元を増大させることで大幅に改善できることを示す。
GPTVQ法は,大規模言語モデル(LLM)によく適応するベクトル量子化(VQ)の高速化手法である。
本手法は,各層ごとの出力再構成MSEのヘシアンからの情報を用いて,残りの未定量重みを更新した1列以上の列の量子化をインターリーブする。
論文 参考訳(メタデータ) (2024-02-23T13:39:16Z) - QuIP#: Even Better LLM Quantization with Hadamard Incoherence and Lattice Codebooks [37.66253003964376]
後トレーニング量子化(PTQ)は、LLMのメモリフットプリントを減らし、その重みを低精度に定量化する。
重みのみのPTQ方式であるQuIP#を導入する。
実験の結果,QuIP#は既存のPTQメソッドよりも優れ,PTQスケーリングにおける新しい動作を可能にし,高速な推論をサポートすることがわかった。
論文 参考訳(メタデータ) (2024-02-06T20:52:12Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - TeD-Q: a tensor network enhanced distributed hybrid quantum machine
learning framework [59.07246314484875]
TeD-Qは、量子機械学習のためのオープンソースのソフトウェアフレームワークである。
古典的な機械学習ライブラリと量子シミュレータをシームレスに統合する。
量子回路とトレーニングの進捗をリアルタイムで視覚化できるグラフィカルモードを提供する。
論文 参考訳(メタデータ) (2023-01-13T09:35:05Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - QDrop: Randomly Dropping Quantization for Extremely Low-bit
Post-Training Quantization [54.44028700760694]
ポストトレーニング量子化(PTQ)は、長時間のリトレーニングなしに効率的なニューラルネットワークを生成するために多くの注目を集めている。
本研究では,PTQ再構成にアクティベーション量子化を適切に組み込むことで,最終的な精度が向上することを先駆的に確認する。
結論に基づき、QDROPと呼ばれる単純な効果的なアプローチが提案され、PTQ中のアクティベーションの量子化をランダムに減少させる。
論文 参考訳(メタデータ) (2022-03-11T04:01:53Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - BRECQ: Pushing the Limit of Post-Training Quantization by Block
Reconstruction [29.040991149922615]
PTQ(Post-training Quantization)という,エンドツーエンドの再トレーニングを伴わないニューラルネットワーク量子化の課題について検討する。
本稿では,PTQ のビット幅制限を INT2 に初めて押し下げる BRECQ という新しい PTQ フレームワークを提案する。
初めて、ベルとホイッスルなしで、PTQはQATに匹敵する4ビットのResNetとMobileNetV2を達成でき、量子化されたモデルの240倍高速な生産を享受できることを証明した。
論文 参考訳(メタデータ) (2021-02-10T13:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。