Fugu-MT 論文翻訳(概要): Softmax Bias Correction for Quantized Generative Models

論文の概要: Softmax Bias Correction for Quantized Generative Models

arxiv url: http://arxiv.org/abs/2309.01729v1
Date: Mon, 4 Sep 2023 17:29:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 17:55:37.870948
Title: Softmax Bias Correction for Quantized Generative Models
Title（参考訳）: 量子化生成モデルのソフトマックスバイアス補正
Authors: Nilesh Prasad Pandey, Marios Fournarakis, Chirag Patel, Markus Nagel
Abstract要約: ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。 PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。これにより、リソース制約のあるエッジデバイス上での推論において、大幅なランタイムと電力オーバーヘッドが発生する可能性がある。本稿では,デプロイ中に計算量を増やすことなく,ソフトマックスの定量化性を向上するオフラインバイアス補正手法を提案する。
参考スコア（独自算出の注目度）: 8.953308552614438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training quantization (PTQ) is the go-to compression technique for large generative models, such as stable diffusion or large language models. PTQ methods commonly keep the softmax activation in higher precision as it has been shown to be very sensitive to quantization noise. However, this can lead to a significant runtime and power overhead during inference on resource-constraint edge devices. In this work, we investigate the source of the softmax sensitivity to quantization and show that the quantization operation leads to a large bias in the softmax output, causing accuracy degradation. To overcome this issue, we propose an offline bias correction technique that improves the quantizability of softmax without additional compute during deployment, as it can be readily absorbed into the quantization parameters. We demonstrate the effectiveness of our method on stable diffusion v1.5 and 125M-size OPT language model, achieving significant accuracy improvement for 8-bit quantized softmax.
Abstract（参考訳）: ポストトレーニング量子化(PTQ)は、安定拡散や大言語モデルのような大きな生成モデルのためのゴート圧縮技術である。 PTQ法は一般に、量子化ノイズに非常に敏感であることが示されているため、ソフトマックスの活性化を高い精度で維持する。しかし、リソース制約のあるエッジデバイスでの推論において、これは大きなランタイムと電力オーバーヘッドにつながる可能性がある。本研究では,量子化に対するソフトマックス感度の源泉を調査し,量子化操作がソフトマックス出力に大きなバイアスをもたらし,精度の低下を引き起こすことを示す。そこで本研究では,展開中の計算量を増やすことなくソフトマックスの定量性を向上し,量子化パラメータに容易に吸収できるオフラインバイアス補正手法を提案する。安定拡散v1.5および125MサイズのOPT言語モデルに対する本手法の有効性を実証し,8ビット量子化ソフトマックスの精度向上を実現した。

関連論文リスト

First-Order Error Matters: Accurate Compensation for Quantized Large Language Models [32.69069234109942]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
論文参考訳（メタデータ） (2025-07-15T06:18:46Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [9.612860507356702]
後トレーニング量子化(PTQ)は、低ビットのケースで破滅的に失敗する。量子化対応トレーニング(QAT)が不可欠である。拡散モデルのための新しいQATフレームワークであるDilateQuantを提案する。
論文参考訳（メタデータ） (2024-09-22T04:21:29Z)
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文参考訳（メタデータ） (2024-06-10T06:06:11Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,現行手法の有効性を損なう量子拡散モデルの3つの特性を実証的に明らかにする。重要な時間的情報を保持する層と、ビット幅の低減に敏感な層という、2つの重要なタイプの量子化層を同定する。提案手法は,3つの高分解能画像生成タスクに対して評価し,様々なビット幅設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Post-training Quantization for Text-to-Image Diffusion Models with Progressive Calibration and Activation Relaxing [49.800746112114375]
本稿では,テキスト・画像拡散モデルのための学習後量子化手法(プログレッシブ・アンド・リラクシング)を提案する。我々は,安定拡散XLの量子化を初めて達成し,その性能を維持した。
論文参考訳（メタデータ） (2023-11-10T09:10:09Z)
MixQuant: Mixed Precision Quantization with a Bit-width Optimization Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術であるラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文参考訳（メタデータ） (2023-09-29T15:49:54Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。 APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文参考訳（メタデータ） (2023-03-25T03:05:26Z)
Density-Softmax: Efficient Test-time Model for Uncertainty Estimation and Robustness under Distribution Shifts [8.431465371266391]
密度-ソフトマックスは、不確実性推定のためのサンプリング不要な決定論的なフレームワークである。我々は,このモデルがミニマックス不確実性リスクの解であることを示した。本手法は,不確実性と堅牢性の観点から,最先端技術と競合する結果を享受する。
論文参考訳（メタデータ） (2023-02-13T16:21:03Z)
Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文参考訳（メタデータ） (2023-02-08T19:38:59Z)
Q-Rater: Non-Convex Optimization for Post-Training Uniform Quantization [9.062897838978955]
様々な訓練後の量子一様化法は通常凸最適化に基づいている。提案手法は,特に低量子化の場合,高いモデル精度を示す。
論文参考訳（メタデータ） (2021-05-05T05:14:22Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。