論文の概要: GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance
- arxiv url: http://arxiv.org/abs/2505.07004v2
- Date: Sat, 31 May 2025 05:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.35777
- Title: GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance
- Title(参考訳): GuidedQuant: エンドロスガイダンスの爆発による大規模言語モデルの量子化
- Authors: Jinuk Kim, Marwa El Halabi, Wonpyo Park, Clemens JS Schaefer, Deokjae Lee, Yeonhong Park, Jae W. Lee, Hyun Oh Song,
- Abstract要約: トレーニング後の量子化は、大規模言語モデルのメモリと推論遅延を低減するための重要なテクニックである。
本稿では,エンドロスからの勾配情報を量子化対象に組み込む新しい量子化手法である GuidedQuant を提案する。
GuidedQuantは、ウェイトオンリーのスカラー、ウェイトオンリーのベクトル、ウェイト・アンド・アクティベーションの量子化にまたがる最先端の量子化手法の性能を一貫して向上させる。
- 参考スコア(独自算出の注目度): 21.134233954419148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training quantization is a key technique for reducing the memory and inference latency of large language models by quantizing weights and activations without requiring retraining. However, existing methods either (1) fail to account for the varying importance of hidden features to the end loss or, when incorporating end loss, (2) neglect the critical interactions between model weights. To address these limitations, we propose GuidedQuant, a novel quantization approach that integrates gradient information from the end loss into the quantization objective while preserving cross-weight dependencies within output channels. GuidedQuant consistently boosts the performance of state-of-the-art quantization methods across weight-only scalar, weight-only vector, and weight-and-activation quantization. Additionally, we introduce a novel non-uniform scalar quantization algorithm, which is guaranteed to monotonically decrease the quantization objective value, and outperforms existing methods in this category. We release the code at https://github.com/snu-mllab/GuidedQuant.
- Abstract(参考訳): トレーニング後の量子化は、重み付けとアクティベーションを再トレーニングを必要とせずに定量化することで、大きな言語モデルのメモリと推論遅延を低減するための重要なテクニックである。
しかしながら、(1)隠れた特徴がエンドロスに様々な重要性を持つことを考慮できない、または(2)エンドロスを組み込んだ場合、(2)モデルウェイト間の重要な相互作用を無視する、という既存の手法がある。
この制限に対処するため,出力チャネル内のクロスウェイト依存関係を保ちながら,エンドロスからの勾配情報を量子化目標に統合する新しい量子化手法である GuidedQuant を提案する。
GuidedQuantは、ウェイトオンリーのスカラー、ウェイトオンリーのベクトル、ウェイト・アンド・アクティベーションの量子化にまたがる最先端の量子化手法の性能を一貫して向上させる。
さらに,新しい非一様スカラー量子化アルゴリズムを導入し,量子化対象値の単調な減少を保証し,既存の手法よりも優れていることを示す。
コードについてはhttps://github.com/snu-mllab/GuidedQuant.comで公開しています。
関連論文リスト
- Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。
我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。
我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文 参考訳(メタデータ) (2025-05-08T13:26:19Z) - Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。
量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。
本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T19:31:21Z) - Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other [10.292252814921714]
本稿では,量子化問題に対する高度な解法として,Learnerable Singular Value Increment(LSI)を導入する。
LSIはSingular Value Decompositionを用いて重みの特異な値を抽出し、重みがアクティベーション時に互いに補償するのに役立つように学習する。
重みのみ、重み付け、超低ビットシナリオによらず、様々な量子化設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-24T03:52:52Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - AWEQ: Post-Training Quantization with Activation-Weight Equalization for
Large Language Models [0.18416014644193066]
AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。
我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
論文 参考訳(メタデータ) (2023-11-02T15:18:22Z) - Attention Round for Post-Training Quantization [0.9558392439655015]
本稿では,アテンションラウンドと呼ばれる新しい定量化手法を提案する。
異なる量子化値にマッピングされる確率は、量子化値とwの間の距離と負に相関し、ガウス函数と崩壊する。
ResNet18 と MobileNetV2 では,本論文で提案するポストトレーニング量子化は 1,024 のトレーニングデータと 10 分しか必要としない。
論文 参考訳(メタデータ) (2022-07-07T05:04:21Z) - Nonuniform-to-Uniform Quantization: Towards Accurate Quantization via
Generalized Straight-Through Estimation [48.838691414561694]
非一様量子化(英: Nonuniform-to-Uniform Quantization、N2UQ)は、ハードウェアフレンドリーで効率的な非一様法の強力な表現能力を維持できる方法である。
N2UQはImageNet上で最先端の非一様量子化法を0.71.8%上回る。
論文 参考訳(メタデータ) (2021-11-29T18:59:55Z) - In-Hindsight Quantization Range Estimation for Quantized Training [5.65658124285176]
従来の反復で推定した量子化範囲を用いて,現在を数値化する動的量子化手法であるin-hindsight range推定法を提案する。
今回のアプローチでは,ニューラルネットワークアクセラレータによる最小限のハードウェアサポートのみを必要としながら,勾配とアクティベーションの高速静的量子化を可能にする。
量子化範囲の推定のためのドロップイン代替として意図されており、他の量子化トレーニングの進歩と併用することができる。
論文 参考訳(メタデータ) (2021-05-10T10:25:28Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。