論文の概要: QuantX: A Framework for Hardware-Aware Quantization of Generative AI Workloads
- arxiv url: http://arxiv.org/abs/2505.07531v1
- Date: Mon, 12 May 2025 13:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.389883
- Title: QuantX: A Framework for Hardware-Aware Quantization of Generative AI Workloads
- Title(参考訳): QuantX: 生成AIワークロードのハードウェア対応量子化フレームワーク
- Authors: Khurram Mazher, Saad Bin Nasir,
- Abstract要約: QuantXは、パフォーマンスの損失を最小限に抑えながら、最大3ビットの解像度を定量化することができる。
以上の結果から,QuantXはLlaVa-v1.6の未定量モデルの6%以内で,複数のエンドユーザータスクに対して3ビットまで量子化された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present QuantX: a tailored suite of recipes for LLM and VLM quantization. It is capable of quantizing down to 3-bit resolutions with minimal loss in performance. The quantization strategies in QuantX take into account hardware-specific constraints to achieve efficient dequantization during inference ensuring flexible trade-off between runtime speed, memory requirement and model accuracy. Our results demonstrate that QuantX achieves performance within 6% of the unquantized model for LlaVa-v1.6 quantized down to 3-bits for multiple end user tasks and outperforms recently published state-of-the-art quantization techniques. This manuscript provides insights into the LLM quantization process that motivated the range of recipes and options that are incorporated in QuantX.
- Abstract(参考訳): 我々は,LLMおよびVLM量子化のためのレシピセットであるQuantXを紹介する。
性能を最小限に抑えながら3ビットの解像度まで定量化することができる。
QuantXの量子化戦略は、ハードウェア固有の制約を考慮に入れ、実行速度、メモリ要求、モデルの正確性の間の柔軟なトレードオフを保証する推論中に効率的な量子化を実現する。
以上の結果から,LlaVa-v1.6の未定量化モデルの6%において,複数のエンドユーザタスクに対して3ビットまで量子化され,最近発表された最先端の量子化技術よりも性能が向上することが示唆された。
この原稿は、QuantXに組み込まれたレシピやオプションの範囲を動機付けるLCM量子化プロセスに関する洞察を提供する。
関連論文リスト
- LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid [36.33062038680275]
大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。
トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。
正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
論文 参考訳(メタデータ) (2024-07-14T00:23:51Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。