論文の概要: A Comprehensive Study on Post-Training Quantization for Large Language
Models
- arxiv url: http://arxiv.org/abs/2303.08302v1
- Date: Wed, 15 Mar 2023 01:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 15:04:24.284292
- Title: A Comprehensive Study on Post-Training Quantization for Large Language
Models
- Title(参考訳): 大規模言語モデルの学習後量子化に関する総合的研究
- Authors: Zhewei Yao, Cheng Li, Xiaoxia Wu, Stephen Youn, Yuxiong He
- Abstract要約: ポストトレーニング量子化(ptq)は、最近、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。
数万のゼロショット実験に対して、これらの成分について広範な研究を行っている。
- 参考スコア(独自算出の注目度): 24.34969722921442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization (\ptq) had been recently shown as a compromising
method to reduce the memory consumption and/or compute cost for large language
models. However, a comprehensive study about the effect of different
quantization schemes, different model families, different \ptq methods,
different quantization bit precision, etc, is still missing. In this work, we
provide an extensive study on those components over tens of thousands of
zero-shot experiments. Our results show that (1) Fine-grained quantization and
\ptq methods (instead of naive round-to-nearest quantization) are necessary to
achieve good accuracy and (2) Higher bits (e.g., 5 bits) with coarse-grained
quantization is more powerful than lower bits (e.g., 4 bits) with very
fine-grained quantization (whose effective bits is similar to 5-bits). We also
present recommendations about how to utilize quantization for \llms with
different sizes, and leave suggestions of future opportunities and system work
that are not resolved in this work.
- Abstract(参考訳): ポストトレーニング量子化(\ptq)は、最近、大規模言語モデルのメモリ消費と/または計算コストを削減するための妥協手法として示されている。
しかし、異なる量子化スキーム、異なるモデルファミリー、異なる \ptq 法、異なる量子化ビット精度などの影響に関する包括的な研究はいまだに欠落している。
本研究では,これらの部品について,何万ものゼロショット実験を行った。
その結果、(1)細粒度量子化と(naive round-to-nearest量子化ではなく) \ptq法が精度向上のために必要であり、(2)粗粒度量子化の上位ビット(例えば5ビット)は、非常に細粒度量子化(実効ビットは5ビットに近い)の下位ビット(例えば4ビット)よりも強力であることがわかった。
また,本研究で解決されていない将来的な機会とシステムワークの提案を残し,異なるサイズのllmに対して量子化をどのように活用するかを推奨する。
関連論文リスト
- Genie: Show Me the Data for Quantization [2.7286395031146062]
ゼロショット量子化は、データがアクセスできない場合に軽量なディープニューラルネットワークを開発するための有望なアプローチである。
ゼロショット量子化のための学習後量子化方式を導入し、30時間以内に高品質な量子化ネットワークを数時間以内に生成する。
また,学習後の量子化アルゴリズムを提案し,量子化モデルの性能を向上させる。
論文 参考訳(メタデータ) (2022-12-09T11:18:40Z) - Gradient-descent quantum process tomography by learning Kraus operators [63.69764116066747]
離散および連続変数の量子システムに対して量子プロセストモグラフィー(QPT)を行う。
我々は、クラウス作用素を得るために、最適化中にいわゆるスティーフェル多様体に対して制約付き勾配-退化(GD)アプローチを用いる。
GD-QPTは、2量子ランダムプロセスを持つベンチマークにおいて、圧縮センシング(CS)と投影最小二乗QPT(PLS)の両方のパフォーマンスと一致する。
論文 参考訳(メタデータ) (2022-08-01T12:48:48Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Scalable approach to many-body localization via quantum data [69.3939291118954]
多体局在は、量子多体物理学の非常に難しい現象である。
計算コストの高いステップを回避できるフレキシブルニューラルネットワークベースの学習手法を提案する。
我々のアプローチは、量子多体物理学の新たな洞察を提供するために、大規模な量子実験に適用することができる。
論文 参考訳(メタデータ) (2022-02-17T19:00:09Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Pareto-Optimal Quantized ResNet Is Mostly 4-bit [3.83996783171716]
我々はResNetをケーススタディとして、量子化が計算コスト品質トレードオフ曲線の推論に与える影響を調べる。
その結果、bfloat16 ResNetの各モデルには、低コストで高精度な量子化モデルがあることが示唆された。
我々は,4ビットResNet-50のImageNet上で,量子化を意識したトレーニングを行い,トップ1のeval精度77.09%を得た。
論文 参考訳(メタデータ) (2021-05-07T23:28:37Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Least squares binary quantization of neural networks [19.818087225770967]
値が-1と1にマップされる二項量子化に焦点を当てる。
2ビット対1ビット量子化のパリト最適性に触発されて、証明可能な最小二乗誤差を持つ新しい2ビット量子化を導入する。
論文 参考訳(メタデータ) (2020-01-09T00:01:14Z) - ZeroQ: A Novel Zero Shot Quantization Framework [83.63606876854168]
量子化は、ニューラルネットワークの推論時間とメモリフットプリントを削減するための有望なアプローチである。
既存のゼロショット量子化法では、異なるエポックを用いてこの問題に対処するが、性能は低下する。
本稿では,この問題に対処する新しいゼロショット量子化フレームワークであるZeroQを提案する。
論文 参考訳(メタデータ) (2020-01-01T23:58:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。