論文の概要: Optimal Formats for Weight Quantisation
- arxiv url: http://arxiv.org/abs/2505.12988v1
- Date: Mon, 19 May 2025 11:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.560294
- Title: Optimal Formats for Weight Quantisation
- Title(参考訳): 軽量化のための最適フォーマット
- Authors: Douglas Orr, Luka Ribar, Carlo Luschi,
- Abstract要約: 本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
一般的なフォーマットの実践的パフォーマンスは,可変長符号を用いた値表現能力に起因していることが示される。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Weight quantisation is an essential technique for enabling efficient training and deployment of modern deep learning models. However, the recipe book of quantisation formats is large and the formats are often chosen empirically. In this paper, we propose a framework for systematic design and analysis of quantisation formats. By connecting the question of format design with the classical quantisation theory, we show that the strong practical performance of popular formats comes from their ability to represent values using variable-length codes. Framing the optimisation problem as minimising the KL divergence between the original and quantised model outputs, the objective is aligned with minimising the squared quantisation error of the model parameters. We therefore develop and evaluate squared-error-optimal formats for known distributions, observing significant improvement of variable-length codes over fixed-length codes. Uniform quantisation followed by lossless compression with a variable-length code is shown to be optimal. However, we find that commonly used block formats and sparse outlier formats also outperform fixed-length codes, implying they also exploit variable-length encoding. Finally, by using the relationship between the Fisher information and KL divergence, we derive the optimal allocation of bit-widths to individual parameter tensors across the model's layers, saving up to 0.25 bits per parameter when tested with direct-cast quantisation of language models.
- Abstract(参考訳): ウェイト量子化は、現代のディープラーニングモデルの効率的なトレーニングとデプロイを可能にするための重要な技術である。
しかし、量子化フォーマットのレシピブックは巨大であり、しばしば経験的に選択される。
本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
形式設計と古典的量子化理論を結びつけることで、ポピュラーなフォーマットの強力な実用性能は、可変長符号を用いて値を表現する能力から生まれることを示した。
最適化問題を、元のモデル出力と量子化されたモデル出力のKL分散を最小化するものとして、その目的はモデルパラメータの2乗量子化誤差を最小化することである。
そこで我々は、既知の分布に対する2乗誤り最適フォーマットを開発し、評価し、固定長符号に対する可変長符号の大幅な改善を観察した。
一様量子化に続いて可変長符号によるロスレス圧縮が最適であることが示されている。
しかし、一般的に使われているブロック形式や疎外文字形式も固定長符号よりも優れており、可変長符号化も活用している。
最後に、フィッシャー情報とKLばらつきの関係を利用して、各パラメータテンソルに対するビット幅の最適割り当てを導出し、言語モデルの直接キャスト量子化で検証した場合、パラメータあたり最大0.25ビットを節約する。
関連論文リスト
- Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。
我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-19T07:47:37Z) - Error Diffusion: Post Training Quantization with Block-Scaled Number Formats for Neural Networks [1.042733720689638]
量子化は、データ移動、ストレージ、乗算や加算のような操作など、モデルのハードウェアコストを削減します。
ブロックスケールの数値形式のようなよりエキゾチックな数値エンコーディングは、固定ビット予算を利用してモデルパラメータをエンコードする利点を示している。
本稿では,ブロックスケールデータフォーマットをサポートするポストトレーニング量子化のための誤り拡散(ED)を提案する。
論文 参考訳(メタデータ) (2024-10-15T02:40:50Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。