Fugu-MT 論文翻訳(概要): AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference

論文の概要: AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference

arxiv url: http://arxiv.org/abs/2411.09909v2
Date: Fri, 30 May 2025 01:11:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 15:03:33.431689
Title: AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference
Title（参考訳）: AMXFP4: 4ビットLPM推論のための非対称マイクロスケーリング浮動小数点演算器
Authors: Janghwan Lee, Jiwoong Park, Jinseok Kim, Yongjik Kim, Jungju Oh, Jinwook Oh, Jungwook Choi,
Abstract要約: AMXFP4は4ビットの非対称なFPフォーマットで、どちらも非対称な共有スケールで処理する。 AMXFP4はVQAでMXFP4を3%上回り、CSQAで1.6%上回る。
参考スコア（独自算出の注目度）: 6.699442219974261
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As large language models (LLMs) grow in parameter size and context length, computation precision has been reduced from 16-bit to 4-bit to improve inference efficiency. However, this reduction causes accuracy degradation due to activation outliers. Rotation-based INT4 methods address this via matrix calibration, but they introduce multi-hour overheads and leave key computations in full precision. Microscaling (MX) floating-point (FP) formats offer fine-grained representation with a shared scale, enabling fully quantized matrix multiplications through direct casting without calibration. However, existing research shows unsatisfactory empirical results for MXFP4 inference, and the robustness of MX formats remains largely unexplored. In this work, we uncover the fundamental tradeoffs of the MX format: while it effectively suppresses activation outliers, it does so at the cost of increased group-wise asymmetry. To address this, we propose AMXFP4, a 4-bit asymmetric FP format that handles both issues using asymmetric shared scales, without requiring calibration. Our custom MAC engine adds negligible hardware cost while improving accuracy: AMXFP4 outperforms MXFP4 by 3% on VQA and exceeds rotation-based methods by 1.6% on CSQA. It also surpasses recently deployed commercial MXFP4 variants. Code: https://github.com/aiha-lab/MX-QLLM
Abstract（参考訳）: 大規模言語モデル(LLM)のパラメータサイズと文脈長の増加に伴い、計算精度は16ビットから4ビットに削減され、推論効率が向上した。しかし、この減少はアクティベーション・アウトレイアによる精度低下を引き起こす。回転ベースのINT4法は、行列の校正によってこの問題に対処するが、マルチ時間オーバーヘッドを導入し、鍵計算を完全精度で残す。マイクロスケーリング (MX) 浮動小数点 (FP) フォーマットは、キャリブレーションなしで直接鋳造することで完全に量子化された行列乗算を可能にする。しかし、既存の研究ではMXFP4の推論に不満足な実験結果が示されており、MXフォーマットの堅牢性はほとんど解明されていない。本研究では、MXフォーマットの基本的なトレードオフを明らかにする: 有効にアクティベーションの外れを抑えるが、グループワイド非対称性の増大を犠牲にしている。そこで本稿では, キャリブレーションを必要とせず, 両問題を非対称な共有スケールで処理する4ビット非対称FPフォーマットであるAMXFP4を提案する。 AMXFP4は、VQAでMXFP4を3%上回り、CSQAで1.6%上回ります。また、最近発売された商用MXFP4を超越している。コード:https://github.com/aiha-lab/MX-QLLM

関連論文リスト

MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models [3.305409455598179]
量子化は大規模言語モデル(LLM)の推論を著しく加速する近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
論文参考訳（メタデータ） (2025-08-04T12:22:39Z)
Quartet: Native FP4 Training Can Be Optimal for Large Language Models [27.800012997794987]
大規模言語モデル(LLM)モデルを低精度で直接訓練することは、計算コストに対処する方法を提供する。 NVIDIAの最近のBlackwellアーキテクチャは、FP4変種を使用した非常に低精度な操作を容易にする。提案手法は, 高精度なFP4トレーニングを実現するための新しい手法である。
論文参考訳（メタデータ） (2025-05-20T17:55:50Z)
QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。 W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文参考訳（メタデータ） (2025-03-25T05:03:56Z)
ML-SpecQD: Multi-Level Speculative Decoding with Quantized Drafts [79.62448915248926]
16ビットモデル推論の精度を犠牲にすることなくLSM推論を高速化する手法として、投機復号法(SD)が登場した。 MXFP4Weight-Only-Quantization (WOQ)は、単にBF16ターゲットモデルの重みをMXFP4に直接キャストするだけなので、MXFP4モデルをプラグアンドプレイ方式でドラフトとして使用することを提案する。私たちのプラグアンドプレイソリューションでは,BF16ベースラインの最大2倍のスピードアップを実現しています。
論文参考訳（メタデータ） (2025-03-17T08:38:45Z)
MergeQuant: Accurate 4-bit Static Quantization of Large Language Models by Channel-wise Calibration [23.752021919501207]
本稿では,チャネルごとの静的量子化フレームワークであるMergeQuantを提案する。 MergeQuantは、量子化ステップマイグレーション(QSM)メソッドを通じて、チャネルごとの量子化ステップと対応するスケーリングと線形マッピングを統合する。 Llama-2-7Bモデルでは、MergeQuantはFP16ベースラインと比較してデコードで最大1.77倍、エンドツーエンドで最大2.06倍のスピードアップを達成する。
論文参考訳（メタデータ） (2025-03-07T04:52:28Z)
Oscillation-Reduced MXFP4 Training for Vision Transformers [19.642508885867375]
FP4の精度で事前学習するトランスフォーマーには、かなりの精度が失われる。 MXFP4データフォーマットのトレーニングは依然として大きな劣化をもたらす。より正確なFP4トレーニングのための新しいトレーニング手法TetraJetを提案する。
論文参考訳（メタデータ） (2025-02-28T08:51:55Z)
Training LLMs with MXFP4 [15.084813381461903]
サポート対象ハードウェアのFP8よりも2倍高速なMXFP4 GEMMを用いた,最初のニアロスレストレーニングレシピを提示する。我々のレシピでは、MXFP4のトレーニングFLOPを1/2$で計算し、バックプロパゲーション時に、FP8よりも$1.3times$、BF16より$1.7times$と見積もることができる。
論文参考訳（メタデータ） (2025-02-27T23:01:31Z)
Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文参考訳（メタデータ） (2025-01-28T18:04:50Z)
Qrazor: Reliable and Effortless 4-bit LLM Quantization by Significant Data Razoring [2.983583925806601]
QRazorは、ウェイト、アクティベーション、KVキャッシュの4ビット量子化をトランスフォーマーベース言語モデルで実現可能な、シンプルで効果的な量子化方式である。まず、8ビットまたは16ビットの整数を用いてデータを量子化し、絶対的な最大スケーリングで完全精度のモデルに近い精度で保存し、次に、重要なデータレイソーシング(SDR)技術を用いて4ビットに圧縮する。
論文参考訳（メタデータ） (2025-01-23T02:20:08Z)
Rotated Runtime Smooth: Training-Free Activation Smoother for accurate INT4 inference [54.2589824716527]
大規模言語モデルは、その大規模なため、相当な計算とメモリ移動コストを発生させる。既存のアプローチでは、外れ値と通常の値を2つの行列に分けたり、アクティベーションからウェイトに移行したりしています。 Smooth と Rotation 操作からなる量子化のためのプラグ・アンド・プレイ・アクティベーション・スムーザである Rotated Smooth (RRS) を提案する。提案手法は,LLaMAおよびQwenファミリーにおける最先端の手法より優れており,IF4推論におけるWikiText-2の難易度は57.33から6.66に向上している。
論文参考訳（メタデータ） (2024-09-30T14:59:22Z)
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。 DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。 4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文参考訳（メタデータ） (2024-05-30T06:56:11Z)
SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文参考訳（メタデータ） (2024-05-26T02:15:49Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文参考訳（メタデータ） (2024-02-19T09:04:30Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文参考訳（メタデータ） (2023-10-25T17:59:32Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。