Fugu-MT 論文翻訳(概要): QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs

論文の概要: QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs

arxiv url: http://arxiv.org/abs/2404.00456v1
Date: Sat, 30 Mar 2024 19:20:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 03:40:06.038938
Title: QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs
Title（参考訳）: QuaRot: 回転LDMにおける外周フリー4ビット推論
Authors: Saleh Ashkboos, Amirkeivan Mohtashami, Maximilian L. Croci, Bo Li, Martin Jaggi, Dan Alistarh, Torsten Hoefler, James Hensman,
Abstract要約: ローテーションに基づく新しい量子化方式であるQuaRotを紹介する。 LLMは、すべての重み、アクティベーション、KVキャッシュを含む、エンドツーエンドのLSMを4ビットで定量化することができる。我々の量子化LLaMa2-70Bモデルは、少なくとも0.29 WikiText-2パープレキシティの損失があり、ゼロショット性能の99%を維持している。
参考スコア（独自算出の注目度）: 73.85018283706756
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce QuaRot, a new Quantization scheme based on Rotations, which is able to quantize LLMs end-to-end, including all weights, activations, and KV cache in 4 bits. QuaRot rotates LLMs in a way that removes outliers from the hidden state without changing the output, making quantization easier. This computational invariance is applied to the hidden state (residual) of the LLM, as well as to the activations of the feed-forward components, aspects of the attention mechanism and to the KV cache. The result is a quantized model where all matrix multiplications are performed in 4-bits, without any channels identified for retention in higher precision. Our quantized LLaMa2-70B model has losses of at most 0.29 WikiText-2 perplexity and retains 99% of the zero-shot performance. Code is available at: https://github.com/spcl/QuaRot.
Abstract（参考訳）: ローテーションに基づく新しい量子化方式であるQuaRotを導入し、全ての重み、アクティベーション、KVキャッシュを含むLLMを4ビットで量子化する。 QuaRotは、出力を変更することなく、隠された状態から外れ値を取り除き、量子化を容易にする方法でLCMを回転させる。この計算不変性は、LLMの隠れ状態(残留状態)やフィードフォワード成分の活性化、注意機構の側面、KVキャッシュに適用される。その結果、すべての行列乗法が4ビットで実行され、高い精度で保持するチャネルが特定されない量子化モデルとなった。我々の量子化LLaMa2-70Bモデルは、少なくとも0.29 WikiText-2パープレキシティの損失があり、ゼロショット性能の99%を維持している。コードは、https://github.com/spcl/QuaRot.comで入手できる。

関連論文リスト

OptRot: Mitigating Weight Outliers via Data-Free Rotations for Post-Training Quantization [9.958479437486288]
本稿では、量子化誤差を重み付けするために、原理的かつ安価なプロキシ目的を最小化することで回転を学習する手法を提案する。主手法はOptRotであり、回転した重みの要素ワイド第4のパワーを最小化することで、重みのアウトリーを小さくする。
論文参考訳（メタデータ） (2025-12-30T10:13:50Z)
SmoothRot: Combining Channel-Wise Scaling and Rotation for Quantization-Friendly LLMs [0.0]
SmoothRotは、大規模言語モデル(LLM)における4ビット量子化の効率を高めるための、新しい学習後の量子化手法である。本手法は,極端外れ値から量子化フレンドリなアクティベーションへと効果的に変換し,量子化精度を大幅に向上させる。
論文参考訳（メタデータ） (2025-06-04T19:07:45Z)
KurTail : Kurtosis-based LLM Quantization [51.24081396305435]
KurTailは、大規模言語モデルのアクティベートにおいて、アウトレーヤを緩和する、新しいトレーニング後の量子化スキームである。 MMLUの精度は13.3%向上し、Wikiの難易度はQuaRotに比べて15.5%低下している。また、SpinQuantを2.6%のMMLUゲインで上回り、パープレキシティを2.9%削減し、トレーニングコストを削減した。
論文参考訳（メタデータ） (2025-03-03T12:43:06Z)
Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer [5.074812070492738]
Rotate, Clip, and Partition (RCP)は量子化対応トレーニング(QAT)アプローチである。 RCPは最近の回転法と新しい一様質量量化器の設計を統合している。 RCPがLLaMA-2-7BをW2A4KV4に圧縮できることを示す。
論文参考訳（メタデータ） (2025-02-17T08:12:34Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文参考訳（メタデータ） (2024-05-26T02:15:49Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
SmoothQuant+: Accurate and Efficient 4-bit Post-Training WeightQuantization for LLM [13.035063417593534]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著な能力を示している。現在、4ビット後の量子化(PTQ)はLLMである程度の成功を収めている。 SmoothQuant+は4ビットの重みのみのPTQである。
論文参考訳（メタデータ） (2023-12-06T11:10:55Z)
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。 SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文参考訳（メタデータ） (2022-11-18T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。