Fugu-MT 論文翻訳(概要): Turning LLM Activations Quantization-Friendly

論文の概要: Turning LLM Activations Quantization-Friendly

arxiv url: http://arxiv.org/abs/2506.01967v1
Date: Sun, 11 May 2025 17:13:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-08 12:40:08.639193
Title: Turning LLM Activations Quantization-Friendly
Title（参考訳）: LLM活性化の量子化
Authors: Patrik Czakó, Gábor Kertész, Sándor Szénási,
Abstract要約: 量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization effectively reduces the serving costs of Large Language Models (LLMs) by speeding up data movement through compressed parameters and enabling faster operations via integer arithmetic. However, activating integer arithmetic requires quantizing both weights and activations, which poses challenges due to the significant outliers in LLMs that increase quantization error. In this work, we investigate these outliers with an emphasis on their effect on layer-wise quantization error, then examine how smoothing and rotation transform the observed values. Our primary contributions include introducing a new metric to measure and visualize quantization difficulty based on channel magnitudes, as well as proposing a hybrid approach that applies channel-wise scaling before rotation, supported by a mathematical formulation of its benefits.
Abstract（参考訳）: 量子化は、圧縮パラメータによるデータ移動を高速化し、整数演算による高速な演算を可能にすることで、LLM(Large Language Models)のサービスコストを効果的に削減する。しかし、整数算術の活性化には重みとアクティベーションの両方の量子化が必要であり、これは量子化誤差を増大させるLLMのかなりの外れ値のために問題を引き起こす。本研究では,これらの外れ値が層次量子化誤差に与える影響に注目して検討し,そのスムーズ化と回転が観測値をどのように変換するかを検討する。我々の主な貢献は、チャネルの大きさに基づいて量子化の困難を計測し視覚化する新しい指標の導入と、その利点の数学的定式化によって支えられたチャネルワイズスケーリングを回転前に適用するハイブリッドアプローチの提案である。

関連論文リスト

BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [16.720321201956157]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文参考訳（メタデータ） (2025-05-26T14:22:21Z)
Q-MambaIR: Accurate Quantized Mamba for Efficient Image Restoration [34.43633070396096]
状態空間モデル(SSM)は、画像復元(IR)において大きな注目を集めている。 Q-MambaIRは、IRタスクのための正確で効率的で柔軟な量子マンバである。
論文参考訳（メタデータ） (2025-03-27T20:34:11Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。 Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文参考訳（メタデータ） (2024-09-30T14:59:22Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
PikeLPN: Mitigating Overlooked Inefficiencies of Low-Precision Neural Networks [4.827161693957252]
非量子化要素演算は、低精度モデルの推論コストを支配している。 PikeLPNモデルは、要素演算と乗算累積演算の両方に量子化を適用することで、これらの問題に対処する。
論文参考訳（メタデータ） (2024-03-29T18:23:34Z)
Magic for the Age of Quantized DNNs [0.6008132390640294]
ミニバッチサイズに依存しない新しい正規化(Layer-Batch Normalization)を導入し,推論時に追加コストを必要としない。また、同じ関数を用いて活性化関数を量子化し、代理勾配を適用して、量子化重みと量子化活性化関数の両方でモデルを訓練する。
論文参考訳（メタデータ） (2024-03-22T07:21:09Z)
What Makes Quantization for Large Language Models Hard? An Empirical Study from the Lens of Perturbation [55.153595212571375]
量子化は、大規模言語モデル(LLM)のメモリと計算効率を改善する技術である。本稿では,LLMの重みと活性化に付加される摂動として,量子化の新しい視点を提案する。各種人工摂動実験を行い,LLMの性能への影響について検討する。
論文参考訳（メタデータ） (2024-03-11T03:42:51Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。様々なビット幅にわたって優れた微調整結果が得られる。
論文参考訳（メタデータ） (2024-02-07T09:36:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。