論文の概要: Turning LLM Activations Quantization-Friendly
- arxiv url: http://arxiv.org/abs/2506.01967v1
- Date: Sun, 11 May 2025 17:13:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.639193
- Title: Turning LLM Activations Quantization-Friendly
- Title(参考訳): LLM活性化の量子化
- Authors: Patrik Czakó, Gábor Kertész, Sándor Szénási,
- Abstract要約: 量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。
しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。
本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization effectively reduces the serving costs of Large Language Models (LLMs) by speeding up data movement through compressed parameters and enabling faster operations via integer arithmetic. However, activating integer arithmetic requires quantizing both weights and activations, which poses challenges due to the significant outliers in LLMs that increase quantization error. In this work, we investigate these outliers with an emphasis on their effect on layer-wise quantization error, then examine how smoothing and rotation transform the observed values. Our primary contributions include introducing a new metric to measure and visualize quantization difficulty based on channel magnitudes, as well as proposing a hybrid approach that applies channel-wise scaling before rotation, supported by a mathematical formulation of its benefits.
- Abstract(参考訳): 量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。
しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。
本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
我々の主な貢献は、チャネルの大きさに基づいて量子化の困難を計測し視覚化する新しい指標の導入と、その利点の数学的定式化によって支えられたチャネルワイズスケーリングを回転前に適用するハイブリッドアプローチの提案である。
関連論文リスト
- SingleQuant: Efficient Quantization of Large Language Models in a Single Pass [17.504732263852876]
量子化切り離しを分離する単一パス量子化フレームワークであるSingleQuantを提案する。
具体的には、SingleQuantはアクティベーションアウトリアをターゲットとしたアライメント回転変換(ART)と統一回転変換(URT)を構築している。
実験の結果、SingleQuantは様々なタスクにまたがる選択されたベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2025-11-27T10:46:39Z) - ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference [13.283581083797484]
後学習量子化(PTQ)は、Large Language Models(LLM)の重みを低精度表現に圧縮し、メモリフットプリントを減らし、推論を加速する。
重みとアクティベーションにおける外れ値の存在は、しばしば大きな量子化誤差と深刻な精度低下をもたらす。
Pairwise Rotation Quantization (ParoQuant) を提案する。
ParoQuantは平均2.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-11-13T18:59:24Z) - STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:53:42Z) - BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [16.720321201956157]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。
Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文 参考訳(メタデータ) (2025-03-27T20:34:11Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。
既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。
Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。
提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文 参考訳(メタデータ) (2024-09-30T14:59:22Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。
PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-03-29T18:23:34Z) - Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。
また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文 参考訳(メタデータ) (2024-03-22T07:21:09Z) - What Makes Quantization for Large Language Models Hard? An Empirical
Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。
本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。
各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文 参考訳(メタデータ) (2024-03-11T03:42:51Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。