Fugu-MT 論文翻訳(概要): AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models

論文の概要: AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models

arxiv url: http://arxiv.org/abs/2311.01305v3
Date: Sun, 12 Nov 2023 07:54:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 19:36:10.462967
Title: AWEQ: Post-Training Quantization with Activation-Weight Equalization for Large Language Models
Title（参考訳）: AWEQ:大規模言語モデルに対するアクティベーション-ウェイト等化によるポストトレーニング量子化
Authors: Baisong Li and Xingwang Wang and Haixiao Xu
Abstract要約: AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。我々はさらに等化法を改良し、量子化バイアスの誤差を軽減し、モデルの堅牢性を確保する。
参考スコア（独自算出の注目度）: 0.18416014644193066
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models(LLMs) exhibit excellent performance across a variety of tasks, but they come with significant computational and storage costs. Quantizing these models is an effective way to alleviate this issue. However, existing methods struggle to strike a balance between model accuracy and hardware efficiency. This is where we introduce AWEQ, a post-training method that requires no additional training overhead. AWEQ excels in both ultra-low-bit quantization and 8-bit weight and activation (W8A8) quantization. There is an observation that weight quantization is less challenging than activation quantization. AWEQ transfers the difficulty of activation quantization to weights using channel equalization, achieving a balance between the quantization difficulties of both, and thereby maximizing performance. We have further refined the equalization method to mitigate quantization bias error, ensuring the robustness of the model. Extensive experiments on popular models such as LLaMA and OPT demonstrate that AWEQ outperforms all existing post-training quantization methods for large models.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なタスクにまたがって優れた性能を示すが、計算と記憶のコストがかなり高い。これらのモデルを定量化することは、この問題を軽減する効果的な方法である。しかし、既存の手法はモデル精度とハードウェア効率のバランスをとるのに苦労している。ここで、追加のトレーニングオーバーヘッドを必要としないポストトレーニング方法であるAWEQを紹介します。 AWEQは、超低ビット量子化と8ビット重みとアクティベーション(W8A8)量子化の両方において優れている。重量量子化は活性化量子化よりも難しくないという観測がある。 AWEQは、チャネル等化を用いて活性化量子化の困難さを重みに転送し、両方の量子化の困難さのバランスを達成し、性能を最大化する。さらに, 量子化バイアス誤差を軽減し, モデルのロバスト性を確保するため, 等化法をさらに洗練した。 LLaMA や OPT のような一般的なモデルに対する大規模な実験は、AWEQ が大規模モデルに対する既存の学習後の量子化手法よりも優れていることを示した。

関連論文リスト

Rethinking Output Alignment For 1-bit Post-Training Quantization of Large Language Models [41.677469535447024]
大きな言語モデル(LLM)は、幅広いNLPタスクに対して強力なパフォーマンスを提供するが、その巨大なサイズは、リソースに制約のあるデバイスへのデプロイメントを妨げる。トレーニング後の量子化(PTQ)は、リトレーニングを必要とせず、キャリブレーションのための小さなデータセットのみを必要とするため、その効率性に広く採用されている。ポストトレーニング量子化の最近の進歩は、サブ4ビット法でさえオリジナルのモデル性能のほとんどを維持できることを示した。
論文参考訳（メタデータ） (2025-12-25T12:39:36Z)
Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文参考訳（メタデータ） (2025-04-07T08:22:45Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
DilateQuant: Accurate and Efficient Diffusion Quantization via Weight Dilation [3.78219736760145]
拡散モデルの量子化はモデルを圧縮し加速する有望な方法である。既存の方法は、低ビット量子化のために、精度と効率の両方を同時に維持することはできない。拡散モデルのための新しい量子化フレームワークであるDilateQuantを提案する。
論文参考訳（メタデータ） (2024-09-22T04:21:29Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。 ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
Compensate Quantization Errors: Make Weights Hierarchical to Compensate Each Other [10.292252814921714]
本稿では,量子化問題に対する高度な解法として,Learnerable Singular Value Increment(LSI)を導入する。 LSIはSingular Value Decompositionを用いて重みの特異な値を抽出し、重みがアクティベーション時に互いに補償するのに役立つように学習する。重みのみ、重み付け、超低ビットシナリオによらず、様々な量子化設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-06-24T03:52:52Z)
BoA: Attention-aware Post-training Quantization without Backpropagation [11.096116957844014]
トレーニング後の量子化は、リソース制約のあるデバイスに大規模言語モデルをデプロイするための有望なソリューションである。層間依存関係を考慮し、量子化重みを最適化する新しいバックプロパゲーションフリーPTQアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-19T11:53:21Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。既存のPTQメソッドは、通常、非自明な性能損失を示す。本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文参考訳（メタデータ） (2024-02-08T12:35:41Z)
QuEST: Low-bit Diffusion Model Quantization via Efficient Selective Finetuning [52.157939524815866]
本稿では,不均衡な活性化分布を量子化困難の原因として同定する。我々は,これらの分布を,より量子化しやすいように微調整することで調整することを提案する。本手法は3つの高解像度画像生成タスクに対して有効性を示す。
論文参考訳（メタデータ） (2024-02-06T03:39:44Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。