論文の概要: A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.14929v1
- Date: Thu, 14 May 2026 15:03:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.898823
- Title: A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models
- Title(参考訳): 大規模言語モデルの学習後量子化のためのハードウェア・アウェア・パー・レイア手法
- Authors: Earl Killian,
- Abstract要約: Scaled Outer Productは、大規模言語モデルの重み付けのためのトレーニング後の量子化方法論である。
ハードウェア上では、層ごとのLUTデコードで4.5--6ビットでほぼロスレスの忠実さを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaled Outer Product (SOP) is a post-training quantization methodology for large language model weights, designed to deliver near-lossless fidelity at 4.5--6 bits per weight on hardware with per-layer LUT decode. The methodology combines per-layer search of fixed and dynamic codebook pairs selected by a per-block selection bit, signed per-block scales, activation-weighted cosine selection, and multiple-choice knapsack promotion of sensitive layers with outlier and sparse-residual correction. Fixed codebooks include NF4, BOF4, Split87, and SH4; per-layer optimized codebooks (DD4) are hosted in LUT SRAM. A new hardware-efficient LUT output format (HIF) is proposed to improve performance, energy, and cost. Across six open model families, the recommended FP6 operating point (E2M3sUE4M4, 6.5 bpw) achieves lower weight reconstruction error than the conventional per-layer-POT FP8 baseline (E4M3, 8.0 bpw) at 1.5 bpw lower storage cost, demonstrating that block-scaled small atoms with carefully chosen scale precision can replace conventionally-deployed FP8. Full evaluation across the 4.5--6 bpw range, including layer promotion and sparse residual correction, is reported in a companion paper.
- Abstract(参考訳): Scaled Outer Product (SOP) は、大規模言語モデルの重みのトレーニング後の量子化手法であり、層ごとのLUTデコードで、ハードウェア上で1重あたり4.5-6ビットで、ほぼロスレスの忠実さを提供するように設計されている。
本手法は,ブロック単位の選択ビット,符号付きブロック単位のスケール,アクティベーション重み付きコサイン選択,および不整合およびスパース残差補正によるセンシティブな層に対する複数選択クナップサックの促進によって選択された固定および動的コードブックペアの層ごとの探索を組み合わせる。
固定コードブックにはNF4、BOF4、Split87、SH4があり、層ごと最適化されたコードブック(DD4)はLUT SRAMでホストされている。
新しいハードウェア効率のLUT出力フォーマット(HIF)は、性能、エネルギ、コストを改善するために提案されている。
推奨FP6オペレーティングポイント(E2M3sUE4M4, 6.5bpw)は、1.5bpwのストレージコストで従来の単層POT FP8ベースライン(E4M3, 8.0bpw)よりも低い重量再構成誤差を達成する。
4.5--6 bpwの範囲で, 層昇格とスパース残差補正を含む全評価を共用紙に報告した。
関連論文リスト
- RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference [1.1100764382749708]
RAMP (Reinforcement Adaptive Mixed Precision) は、グローバルビット予算の下でパープレキシティを最小限に抑えるために、層幅の割り当て毎に学習する。
Llama 2 7Bでは、RAMPは3.68GB (3.65 ビット)で5.54パープレキシティを実現し、均一な4ビット AWQ (5.60 ビット、3.90 GB)と GPTQ を6%、品質は1%から3%向上した。
論文 参考訳(メタデータ) (2026-03-18T16:16:28Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - "Give Me BF16 or Give Me Death"? Accuracy-Performance Trade-Offs in LLM Quantization [67.3213104337679]
量子化は大規模言語モデル(LLM)推論を高速化するための強力なツールであるが、異なるフォーマット間での精度と性能のトレードオフは依然として不明である。
FP8,INT8,INT4の量子化を学術ベンチマークや実世界のタスクで評価し,これまでで最も包括的な実証的研究を行った。
論文 参考訳(メタデータ) (2024-11-04T18:21:59Z) - LQ-LoRA: Low-rank Plus Quantized Matrix Decomposition for Efficient Language Model Finetuning [66.85589263870702]
提案手法では,事前学習した行列を高精度の低ランク成分とメモリ効率の量子化成分に分解するために反復アルゴリズムを用いる。
微調整されたRoBERTaとLLaMA-2の実験は、我々の低ランク+量子化行列分解法(LQ-LoRA)が強いQLoRAおよびGPTQ-LoRAベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2023-11-20T18:57:41Z) - FPTQ: Fine-grained Post-Training Quantization for Large Language Models [28.11564378745513]
利用可能なオープンソースLLMのための新しいW4A8ポストトレーニング量子化法を提案する。
我々は,BLOOM,LLaMA,LLaMA-2における最先端のW4A8量子化性能を標準ベンチマークで取得する。
論文 参考訳(メタデータ) (2023-08-30T12:18:18Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。