Fugu-MT 論文翻訳(概要): APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models

論文の概要: APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models

arxiv url: http://arxiv.org/abs/2402.14866v2
Date: Tue, 16 Apr 2024 03:18:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-17 22:56:09.942567
Title: APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models
Title（参考訳）: APTQ:大規模言語モデルのための注意認識後混合精度量子化
Authors: Ziyi Guan, Hantao Huang, Yupeng Su, Hong Huang, Ngai Wong, Hao Yu,
Abstract要約: APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
参考スコア（独自算出の注目度）: 12.006605064782567
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have greatly advanced the natural language processing paradigm. However, the high computational load and huge model sizes pose a grand challenge for deployment on edge devices. To this end, we propose APTQ (Attention-aware Post-Training Mixed-Precision Quantization) for LLMs, which considers not only the second-order information of each layer's weights, but also, for the first time, the nonlinear effect of attention outputs on the entire model. We leverage the Hessian trace as a sensitivity metric for mixed-precision quantization, ensuring an informed precision reduction that retains model performance. Experiments show APTQ surpasses previous quantization methods, achieving an average of 4 bit width a 5.22 perplexity nearly equivalent to full precision in the C4 dataset. In addition, APTQ attains state-of-the-art zero-shot accuracy of 68.24\% and 70.48\% at an average bitwidth of 3.8 in LLaMa-7B and LLaMa-13B, respectively, demonstrating its effectiveness to produce high-quality quantized LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理パラダイムを大幅に進歩させた。しかし、高い計算負荷と巨大なモデルサイズは、エッジデバイスにデプロイする上で大きな課題となる。この目的のために, 各層の重みの2次情報だけでなく, 初めて, 注意出力の非線形効果を考慮したLCMのためのAPTQ(Attention-aware Post-Training Mixed-Precision Quantization)を提案する。我々はヘシアントレースを混合精度量子化の感度指標として利用し、モデル性能を維持するための情報精度の低下を確実にする。実験の結果、APTQは従来の量子化法を超越し、平均4ビット幅5.22パープレキシティをC4データセットの完全精度とほぼ同等に達成した。さらに、APTQは、LLaMa-7BとLLaMa-13Bの平均ビット幅において、68.24\%と70.48\%の最先端ゼロショット精度を達成し、高品質の量子化LDMを製造する効果を示す。

関連論文リスト

First-Order Error Matters: Accurate Compensation for Quantized Large Language Models [32.69069234109942]
後学習量子化(PTQ)は、大規模言語モデル(LLM)の圧縮に効率的なアプローチを提供する既存の補償に基づくウェイトキャリブレーション法は、しばしば量子化誤差をモデル化するために2階テイラー展開に依存する。本稿では,量子化誤差補償を改善するために,一階勾配項を明示的に組み込んだ新しいPTQ手法であるFOEMを提案する。
論文参考訳（メタデータ） (2025-07-15T06:18:46Z)
DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models [11.216745641229917]
ポストトレーニング量子化(PTQ)は一般的な手法であるが、しばしば低ビットレベルの課題に直面している。量子化対応トレーニング(QAT)はこの問題を軽減することができるが、計算資源が大幅に必要である。そこで本研究では,QATの利点をマージし,総パラメータの1%未満のトレーニングを行ないながら,低域量子化意識トレーニング(DL-QAT)を導入する。
論文参考訳（メタデータ） (2025-04-12T13:57:02Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
TesseraQ: Ultra Low-Bit LLM Post-Training Quantization with Block Reconstruction [20.903193906931687]
後学習量子化(PTQ)は、メモリフットプリントを減らし、大規模言語モデル(LLM)の推論スループットを向上させるデファクト手法になりつつある。我々は,LLMの重みを超低ビットに定量化するために,最新のPTQ技術であるTesseraQを提案する。我々は、TesseraQが既存のスケーリングやクリッピングベースのPTQアルゴリズムとシームレスに統合できることを実証した。
論文参考訳（メタデータ） (2024-10-24T19:06:51Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文参考訳（メタデータ） (2024-02-07T14:35:05Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。