Fugu-MT 論文翻訳(概要): OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

論文の概要: OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models

arxiv url: http://arxiv.org/abs/2308.13137v2
Date: Sun, 22 Oct 2023 08:10:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 07:40:18.505565
Title: OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models
Title（参考訳）: OmniQuant: 大規模言語モデルのための一方向校正量子化
Authors: Wenqi Shao, Mengzhao Chen, Zhaoyang Zhang, Peng Xu, Lirui Zhao, Zhiqian Li, Kaipeng Zhang, Peng Gao, Yu Qiao, Ping Luo
Abstract要約: 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。最近のPTQ法はメモリフットプリントの削減に有効であるが、極端に低ビットの量子化に対処できない。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
参考スコア（独自算出の注目度）: 59.176603429408225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have revolutionized natural language processing tasks. However, their practical deployment is hindered by their immense memory and computation requirements. Although recent post-training quantization (PTQ) methods are effective in reducing memory footprint and improving the computational efficiency of LLM, they hand-craft quantization parameters, which leads to low performance and fails to deal with extremely low-bit quantization. To tackle this issue, we introduce an Omnidirectionally calibrated Quantization (OmniQuant) technique for LLMs, which achieves good performance in diverse quantization settings while maintaining the computational efficiency of PTQ by efficiently optimizing various quantization parameters. OmniQuant comprises two innovative components including Learnable Weight Clipping (LWC) and Learnable Equivalent Transformation (LET). LWC modulates the extreme values of weights by optimizing the clipping threshold. Meanwhile, LET tackles activation outliers by shifting the challenge of quantization from activations to weights through a learnable equivalent transformation. Operating within a differentiable framework using block-wise error minimization, OmniQuant can optimize the quantization process efficiently for both weight-only and weight-activation quantization. For instance, the LLaMA-2 model family with the size of 7-70B can be processed with OmniQuant on a single A100-40G GPU within 1-16 hours using 128 samples. Extensive experiments validate OmniQuant's superior performance across diverse quantization configurations such as W4A4, W6A6, W4A16, W3A16, and W2A16. Additionally, OmniQuant demonstrates effectiveness in instruction-tuned models and delivers notable improvements in inference speed and memory reduction on real devices. Codes and models are available at \url{https://github.com/OpenGVLab/OmniQuant}.
Abstract（参考訳）: 大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。しかし、実際のデプロイメントは、その膨大なメモリと計算要件によって妨げられている。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効であるが、手作業による量子化パラメーターにより性能が低下し、極端に低ビットの量子化に対処できない。この問題に対処するために,様々な量子化パラメータを効率的に最適化し,PTQの計算効率を保ちつつ,多様な量子化設定において優れた性能を実現するLLMのためのOmnidirectly calibrated Quantization(OmniQuant)技術を導入する。 OmniQuantはLearnerable Weight Clipping (LWC)とLearnerable Equivalent Transformation (LET)の2つの革新的なコンポーネントで構成されている。 LWCはクリッピング閾値を最適化することで重量の極端な値を変調する。一方、letは、学習可能な等価変換を通じて、量子化の課題を活性化から重みにシフトすることで、アクティベーション異常に取り組みます。 OmniQuantはブロックワイドエラー最小化を用いて、微分可能なフレームワーク内で動作し、ウェイトオンリーおよびウェイトアクティベーション量子化の両方のために量子化プロセスを効率的に最適化することができる。例えば、7-70BサイズのLLaMA-2モデルファミリは、1-16時間以内に128サンプルを使用して単一のA100-40G GPU上でOmniQuantで処理できる。大規模な実験により、OmniQuantはW4A4、W6A6、W4A16、W3A16、W2A16といった様々な量子化構成にまたがる優れた性能を検証した。さらに、OmniQuantは命令チューニングモデルの有効性を示し、実際のデバイスにおける推論速度とメモリ削減の顕著な改善を提供する。コードとモデルは \url{https://github.com/OpenGVLab/OmniQuant} で公開されている。

関連論文リスト

ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices [3.465218658690795]
CPUベースのエッジデバイス上の大規模言語モデル(LLM)は、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。我々は,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。 HLQは計算コストを増大させることなく、重量の統計特性をよりよく捉える。 LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビット精度で約85%のパープレキシティを減少させる。
論文参考訳（メタデータ） (2025-10-22T11:20:47Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
MobileQuant: Mobile-friendly Quantization for On-device Language Models [31.75012542498791]
大規模言語モデル(LLM)は言語処理に革命をもたらし、複数のアプリケーションにまたがって優れた結果をもたらしている。エッジデバイスにLSMをデプロイすることは、メモリ、エネルギ、計算コストに関していくつかの課題をもたらす。我々は、従来の重み等価変換作業を拡張する、MobileQuantと呼ばれる単純な後学習量子化手法を導入する。
論文参考訳（メタデータ） (2024-08-25T20:41:22Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文参考訳（メタデータ） (2024-03-19T08:40:21Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.126191142715184]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。 Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文参考訳（メタデータ） (2023-10-29T18:33:05Z)
QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [35.16907522675046]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。下流データセットでトレーニング済みのモデルを微調整することで、大幅なパフォーマンス向上を実現している。このプロセスは通常、大量の高価なハイエンドGPUを必要とする。トレーニング状態の量子化と格納を行う量子化フルパラメータチューニングフレームワークであるQFTを提案する。
論文参考訳（メタデータ） (2023-10-11T02:47:40Z)
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。 LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文参考訳（メタデータ） (2023-10-07T14:50:28Z)
SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models [14.929695160346276]
大規模言語モデル(LLM)は優れた性能を示すが、計算とメモリ集約性がある。 SmoothQuant, トレーニング不要, 精度保存, 汎用的なポストトレーニング量子化ソリューションを提案する。最大1.56倍の高速化と2倍のメモリ削減を実現した。
論文参考訳（メタデータ） (2022-11-18T18:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。