論文の概要: Optimal Formats for Weight Quantisation
- arxiv url: http://arxiv.org/abs/2505.12988v1
- Date: Mon, 19 May 2025 11:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.560294
- Title: Optimal Formats for Weight Quantisation
- Title(参考訳): 軽量化のための最適フォーマット
- Authors: Douglas Orr, Luka Ribar, Carlo Luschi,
- Abstract要約: 本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
一般的なフォーマットの実践的パフォーマンスは,可変長符号を用いた値表現能力に起因していることが示される。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Weight quantisation is an essential technique for enabling efficient training and deployment of modern deep learning models. However, the recipe book of quantisation formats is large and the formats are often chosen empirically. In this paper, we propose a framework for systematic design and analysis of quantisation formats. By connecting the question of format design with the classical quantisation theory, we show that the strong practical performance of popular formats comes from their ability to represent values using variable-length codes. Framing the optimisation problem as minimising the KL divergence between the original and quantised model outputs, the objective is aligned with minimising the squared quantisation error of the model parameters. We therefore develop and evaluate squared-error-optimal formats for known distributions, observing significant improvement of variable-length codes over fixed-length codes. Uniform quantisation followed by lossless compression with a variable-length code is shown to be optimal. However, we find that commonly used block formats and sparse outlier formats also outperform fixed-length codes, implying they also exploit variable-length encoding. Finally, by using the relationship between the Fisher information and KL divergence, we derive the optimal allocation of bit-widths to individual parameter tensors across the model's layers, saving up to 0.25 bits per parameter when tested with direct-cast quantisation of language models.
- Abstract(参考訳): ウェイト量子化は、現代のディープラーニングモデルの効率的なトレーニングとデプロイを可能にするための重要な技術である。
しかし、量子化フォーマットのレシピブックは巨大であり、しばしば経験的に選択される。
本稿では,量子化フォーマットの体系的設計と分析のためのフレームワークを提案する。
形式設計と古典的量子化理論を結びつけることで、ポピュラーなフォーマットの強力な実用性能は、可変長符号を用いて値を表現する能力から生まれることを示した。
最適化問題を、元のモデル出力と量子化されたモデル出力のKL分散を最小化するものとして、その目的はモデルパラメータの2乗量子化誤差を最小化することである。
そこで我々は、既知の分布に対する2乗誤り最適フォーマットを開発し、評価し、固定長符号に対する可変長符号の大幅な改善を観察した。
一様量子化に続いて可変長符号によるロスレス圧縮が最適であることが示されている。
しかし、一般的に使われているブロック形式や疎外文字形式も固定長符号よりも優れており、可変長符号化も活用している。
最後に、フィッシャー情報とKLばらつきの関係を利用して、各パラメータテンソルに対するビット幅の最適割り当てを導出し、言語モデルの直接キャスト量子化で検証した場合、パラメータあたり最大0.25ビットを節約する。
関連論文リスト
- Unified Scaling Laws for Compressed Representations [69.72517034565467]
各種圧縮表現上でのトレーニングにおいて,統合スケーリングフレームワークがモデル性能を正確に予測できるかどうかを検討する。
我々の主な発見は、単純な「容量」計量が存在するという理論と経験の両方を実証することである。
我々は、圧縮されたフォーマットの精度を直接比較し、スパース量子化されたフォーマットのトレーニングのためのより良いアルゴリズムを導出するために、定式化を拡張した。
論文 参考訳(メタデータ) (2025-06-02T16:52:51Z) - Flexible Mixed Precision Quantization for Learned Image Compression [4.847449762378203]
本稿では、異なるビット幅を量子化されたネットワークの異なる層に割り当てるフレキシブル混合精密量子化法(FMPQ)を提案する。
また、量子化ビット幅の所望分布を探索する際の時間複雑度を低減する適応探索アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-06-02T00:12:50Z) - Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。
我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。
第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文 参考訳(メタデータ) (2025-02-20T22:24:27Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Diffusion Product Quantization [18.32568431229839]
極端圧縮条件下での拡散モデルの量子化について検討し、性能を維持しながらモデルサイズを小さくする。
我々は、ImageNet上のDiTモデルに圧縮法を適用し、他の量子化手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2024-11-19T07:47:37Z) - Error Diffusion: Post Training Quantization with Block-Scaled Number Formats for Neural Networks [1.042733720689638]
量子化は、データ移動、ストレージ、乗算や加算のような操作など、モデルのハードウェアコストを削減します。
ブロックスケールの数値形式のようなよりエキゾチックな数値エンコーディングは、固定ビット予算を利用してモデルパラメータをエンコードする利点を示している。
本稿では,ブロックスケールデータフォーマットをサポートするポストトレーニング量子化のための誤り拡散(ED)を提案する。
論文 参考訳(メタデータ) (2024-10-15T02:40:50Z) - LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。