Fugu-MT 論文翻訳(概要): Identifying Sensitive Weights via Post-quantization Integral

論文の概要: Identifying Sensitive Weights via Post-quantization Integral

arxiv url: http://arxiv.org/abs/2503.01901v1
Date: Fri, 28 Feb 2025 07:04:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.305737
Title: Identifying Sensitive Weights via Post-quantization Integral
Title（参考訳）: ポスト量子化積分による感度重みの同定
Authors: Yuezhou Hu, Weiyu Huang, Zichen Liang, Chang Chen, Jintao Zhang, Jun Zhu, Jianfei Chen,
Abstract要約: 後方感度をきめ細かな方法で推定するための後量子化積分(PQI)を提案する。また、ReQuantも提案しています。ReQuantはシンプルで強力なフレームワークで、主に2- and-Sparseのdetachコンポーネントで構成されています。その結果、ReQuantは、QTIPを用いたLlama 3.2 1Bに対して2.66パープレキシティゲインを顕著に向上させ、最先端のポストトレーニング量子化手法を向上することが示された。
参考スコア（独自算出の注目度）: 27.722950830077444
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Serving Large Language Models (LLMs) is costly. However, post-training weight quantization can address this problem by both compressing their sizes for limited memory and saving bandwidth for acceleration. As not all weight dimensions are equally important, those methods typically rely on a sensitivity metric, which indicates the element-wise influence of weights on loss function and is used to preprocess original weights for better quantization. In this work, we conduct an empirical study on the accuracy of the sensitivity metric, and find that existing gradient and Hessian based metrics are very inaccurate: they underestimate quantization's impact on the loss function by orders of magnitude, mainly due to the small convergence radius of local 2nd order approximation, \ie, gradient and Hessian term in Taylor's formula. To tackle this problem, we propose Post-quantization Integral (PQI), an accurate metric to estimate posterior sensitivity in a fine-grained manner. To leverage this accurate metric, we further propose ReQuant, a simple yet powerful framework that mainly consists of two Dense-and-Sparse detach components: self-adaptive outlier selection and step-wise significant weights detach. Results show that ReQuant boosts state-of-the-art post-training quantization methods, with a pronounced improvement of 2.66 perplexity gain on Llama 3.2 1B with QTIP.
Abstract（参考訳）: Serving Large Language Models (LLMs) は費用がかかる。しかし、トレーニング後の重み量子化は、メモリ制限のためにサイズを圧縮し、アクセラレーションのために帯域幅を節約することでこの問題に対処できる。すべての重み次元が等しく重要であるわけではないため、これらの手法は一般的に、損失関数に対する重みの要素的影響を示す感度メートル法に依存し、より優れた量子化のために元の重みを前処理するために使用される。本研究は、感度測定の精度に関する実証的研究を行い、既存の勾配とヘッセン式に基づく測定値が非常に不正確なことを発見した。それらは、主にテイラーの公式における局所2次近似の小さな収束半径、シャイ、勾配、およびヘッセン式による損失関数に対する量子化の影響を、桁違いに過小評価する。この問題に対処するために、後続感度をきめ細かな方法で推定する正確な計量であるポスト量子化積分(PQI)を提案する。この正確なメトリックを活用するために、我々はさらにReQuantを提案する。ReQuantは2つのDense-and-Sparseデタックコンポーネント(自己適応型アウトリーチ選択と段階的に重要な重み付けデタック)から構成される、シンプルだが強力なフレームワークである。その結果、ReQuantは、QTIPを用いたLlama 3.2 1Bに対して2.66パープレキシティゲインを顕著に向上させ、最先端のポストトレーニング量子化手法を向上することが示された。

関連論文リスト

GuidedQuant: Large Language Model Quantization via Exploiting End Loss Guidance [21.134233954419148]
トレーニング後の量子化は、大規模言語モデルのメモリと推論遅延を低減するための重要なテクニックである。本稿では,エンドロスからの勾配情報を量子化対象に組み込む新しい量子化手法である GuidedQuant を提案する。 GuidedQuantは、ウェイトオンリーのスカラー、ウェイトオンリーのベクトル、ウェイト・アンド・アクティベーションの量子化にまたがる最先端の量子化手法の性能を一貫して向上させる。
論文参考訳（メタデータ） (2025-05-11T14:55:09Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Compression Scaling Laws:Unifying Sparsity and Quantization [65.05818215339498]
プレトレーニング中の大規模言語モデル(LLM)のスケーリング挙動に異なる圧縮手法がどう影響するかを検討する。重みのみの量子化は強力なパラメータ効率乗算器を実現する一方で、重みとアクティベーションの完全な量子化は低ビット幅でのリターンの低下を示す。以上の結果から,異なる圧縮手法を共通のスケーリング法枠組みの下で統一できることが示唆された。
論文参考訳（メタデータ） (2025-02-23T04:47:36Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。 PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文参考訳（メタデータ） (2024-10-22T11:57:32Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
A2Q+: Improving Accumulator-Aware Weight Quantization [45.14832807541816]
量子化技術は一般的に、重みとアクティベーションの精度を制限することにより、ニューラルネットワークの推論コストを削減している。最近の研究は、トレーニング中にモデルの重みを制約し、推論中にターゲットのアキュムレータビット幅を安全に使用するための量子化対応トレーニング手法である、アキュムレータ対応量子化(A2Q)を提案する。我々は、事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略であるA2Q+を紹介する。
論文参考訳（メタデータ） (2024-01-19T00:27:34Z)
Mixed Precision of Quantization of Transformer Language Models for Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。最適局所精度設定は2つの手法を用いて自動的に学習される。 Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文参考訳（メタデータ） (2021-11-29T09:57:00Z)
Post-training Quantization with Multiple Points: Mixed Precision without Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文参考訳（メタデータ） (2020-02-20T22:37:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。