Fugu-MT 論文翻訳(概要): NestQuant: Nested Lattice Quantization for Matrix Products and LLMs

論文の概要: NestQuant: Nested Lattice Quantization for Matrix Products and LLMs

arxiv url: http://arxiv.org/abs/2502.09720v1
Date: Thu, 13 Feb 2025 19:11:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-17 19:47:35.527813
Title: NestQuant: Nested Lattice Quantization for Matrix Products and LLMs
Title（参考訳）: NestQuant: マトリックス製品とLLMのためのネスト格子量子化
Authors: Semyon Savkin, Eitan Porat, Or Ordentlich, Yury Polyanskiy,
Abstract要約: 学習後量子化(PTQ)は,大規模言語モデル(LLM)の効率的な展開のための重要な手法として登場した。この研究は、自己相似ネスト格子に基づくウェイトとアクティベーションのための新しいPTQスキームであるNestQuantを提案する。
参考スコア（独自算出の注目度）: 28.513229817603115
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Post-training quantization (PTQ) has emerged as a critical technique for efficient deployment of large language models (LLMs). This work proposes NestQuant, a novel PTQ scheme for weights and activations that is based on self-similar nested lattices. Recent work have mathematically shown such quantizers to be information-theoretically optimal for low-precision matrix multiplication. We implement a practical low-complexity version of NestQuant based on Gosset lattice, making it a drop-in quantizer for any matrix multiplication step (e.g., in self-attention, MLP etc). For example, NestQuant quantizes weights, KV-cache, and activations of Llama-3-8B to 4 bits, achieving perplexity of 6.6 on wikitext2. This represents more than 55% reduction in perplexity gap with respect to unquantized model (perplexity of 6.14) compared to state-of-the-art Meta's SpinQuant (perplexity 7.3). Comparisons on various LLM evaluation benchmarks also show a reduction in performance degradation induced by quantization.
Abstract（参考訳）: 学習後量子化(PTQ)は,大規模言語モデル(LLM)の効率的な展開のための重要な手法として登場した。この研究は、自己相似ネスト格子に基づくウェイトとアクティベーションのための新しいPTQスキームであるNestQuantを提案する。近年の研究では、そのような量化器は情報理論的に低精度行列乗算に最適であることが数学的に示されている。我々は、Gosset格子に基づくNestQuantの実用的低複雑さバージョンを実装し、任意の行列乗算ステップ(例えば、自己注意、MLPなど)のドロップイン量子化器となる。例えば、NestQuantはウェイト、KV-cache、Llama-3-8Bの4ビットへのアクティベーションを量子化し、wikitext2上で6.6のパープレキシティを実現する。これは、最先端のMetaのSpinQuant(perplexity 7.3)と比較して、未定量モデル(perplexity of 6.14)に対するパープレキシティギャップが55%以上減少していることを示している。各種LLM評価ベンチマークとの比較では,量子化による性能劣化の低減が示されている。

関連論文リスト

Achieving binary weight and activation for LLMs using Post-Training Quantization [32.247768389896144]
大規模言語モデル(LLM)を1ビット精度に量子化することは、計算コストを大幅に削減する。既存の量子化技術は、4ビット以下の重みとアクティベーション精度を使用する場合(W4A4)、顕著な性能劣化に悩まされる。 W (1+1)A (1*4) 構成で、重みを1ビットに量子化し、細粒度グループ化のための1ビットを追加し、アクティベーションを4倍のチャネル数で1ビットに量子化するポストトレーニング量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-04-07T04:50:04Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。 PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文参考訳（メタデータ） (2024-10-22T11:57:32Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
CrossQuant: A Post-Training Quantization Method with Smaller Quantization Kernel for Precise Large Language Model Compression [6.859010157930106]
学習後量子化(PTQ)は大規模言語モデル(LLM)の圧縮に有効な手法である量子化カーネル (quantization kernel) とは、ゼロに量子化される活性化の要素の集合のことである。アクティベーションを定量化するシンプルで効果的な方法であるCrossQuantを提案する。
論文参考訳（メタデータ） (2024-10-10T00:44:24Z)
SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文参考訳（メタデータ） (2024-05-26T02:15:49Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
Agile-Quant: Activation-Guided Quantization for Faster Inference of LLMs on the Edge [45.690907522226794]
大きな言語モデル(LLM)は、複雑な言語モデリングタスクにおける印象的なパフォーマンスで際立っている。近年の研究では、エンド・ツー・エンドのタスク性能に最小限の影響を伴って、8ビット以下のウェイト量子化が可能であることが示されている。我々は、人気のある大規模言語モデルのためのアクティベーション誘導量子化フレームワークであるAgile-Quantを提案する。
論文参考訳（メタデータ） (2023-12-09T22:12:52Z)
LLM-FP4: 4-Bit Floating-Point Quantized Transformers [38.23587031169402]
大規模言語モデル(LLM)における重みとアクティベーションを4ビット浮動小数点値まで定量化するLLM-FP4を提案する。整数量子化と比較すると、浮動小数点(FP)量子化はより柔軟であり、長い尾や鐘のような分布を扱うことができる。 LLaMA-13Bの重みとアクティベーションの両方を4ビットに定量化し,平均スコア63.1を得る。
論文参考訳（メタデータ） (2023-10-25T17:59:32Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。