Fugu-MT 論文翻訳(概要): SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs

論文の概要: SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs

arxiv url: http://arxiv.org/abs/2503.07657v1
Date: Fri, 07 Mar 2025 14:59:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-12 22:35:51.339811
Title: SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs
Title（参考訳）: SplitQuantV2:GPUなしでLLMの低ビット量子化を実現する
Authors: Jaewoo Song, Fangzhen Lin,
Abstract要約: SplitQuantV2は、大規模言語モデルの低ビット線形量子化を強化するために設計された革新的なアルゴリズムである。高度なアルゴリズムに匹敵する結果が得られる。
参考スコア（独自算出の注目度）: 10.036727981085223
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The quantization of large language models (LLMs) is crucial for deploying them on devices with limited computational resources. While advanced quantization algorithms offer improved performance compared to the basic linear quantization, they typically require high-end graphics processing units (GPUs), are often restricted to specific deep neural network (DNN) frameworks, and require calibration datasets. This limitation poses challenges for using such algorithms on various neural processing units (NPUs) and edge AI devices, which have diverse model formats and frameworks. In this paper, we show SplitQuantV2, an innovative algorithm designed to enhance low-bit linear quantization of LLMs, can achieve results comparable to those of advanced algorithms. SplitQuantV2 preprocesses models by splitting linear and convolution layers into functionally equivalent, quantization-friendly structures. The algorithm's platform-agnostic, concise, and efficient nature allows for implementation without the need for GPUs. Our evaluation on the Llama 3.2 1B Instruct model using the AI2's Reasoning Challenge (ARC) dataset demonstrates that SplitQuantV2 improves the accuracy of the INT4 quantization model by 11.76%p, matching the performance of the original floating-point model. Remarkably, SplitQuantV2 took only 2 minutes 6 seconds to preprocess the 1B model and perform linear INT4 quantization using only an Apple M4 CPU. SplitQuantV2 provides a practical solution for low-bit quantization on LLMs, especially when complex, computation-intensive algorithms are inaccessible due to hardware limitations or framework incompatibilities.
Abstract（参考訳）: 大規模言語モデル(LLM)の量子化は、限られた計算資源を持つデバイスにそれらをデプロイするために重要である。高度な量子化アルゴリズムは、基本的な線形量子化よりもパフォーマンスが向上するが、通常、ハイエンドのグラフィックス処理ユニット(GPU)を必要とし、しばしば特定のディープニューラルネットワーク(DNN)フレームワークに制限され、キャリブレーションデータセットを必要とする。この制限は、さまざまなモデルフォーマットとフレームワークを持つさまざまなニューラル処理ユニット(NPU)とエッジAIデバイスでそのようなアルゴリズムを使用する上で、課題となる。本稿では,LLMの低ビット線形量子化を向上する革新的なアルゴリズムであるSplitQuantV2について述べる。 SplitQuantV2は、線形層と畳み込み層を機能的に等価で量子化しやすい構造に分割することで、モデルを前処理する。このアルゴリズムのプラットフォームに依存しない、簡潔で効率的な性質は、GPUを必要としない実装を可能にする。 AI2のReasoning Challenge (ARC)データセットを用いたLlama 3.2 1Bインストラクタモデルの評価では、SplitQuantV2がINT4量子化モデルの精度を11.76%向上し、元の浮動小数点モデルの性能に匹敵することを示した。 SplitQuantV2は1Bモデルを前処理し、Apple M4 CPUのみを使用して線形INT4量子化を行うのにわずか2分6秒しかかからなかった。 SplitQuantV2 は LLM 上で低ビット量子化を実現するための実用的なソリューションを提供する。

関連論文リスト

PoTPTQ: A Two-step Power-of-Two Post-training for LLMs [27.141872509108122]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-16T06:44:14Z)
GANQ: GPU-Adaptive Non-Uniform Quantization for Large Language Models [2.1388885579612804]
GANQは、ハードウェア効率の良いルックアップテーブルベースのmpGEMMに最適化されたレイヤーワイズ後の非一様量子化フレームワークである。広汎な実験は、3ビットおよび4ビット量子化の最先端手法と比較して、GANQのFP16ベースラインからのパープレキシティギャップを低減する能力を示している。
論文参考訳（メタデータ） (2025-01-22T15:29:09Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
LUT-GEMM: Quantized Matrix Multiplication based on LUTs for Efficient Inference in Large-Scale Generative Language Models [9.727062803700264]
量子化行列乗算のための効率的なカーネルであるLUT-GEMMを紹介する。 LUT-GEMMは資源集約化プロセスを取り除き、計算コストを削減する。我々は,3ビット量子化を用いたOPT-175Bモデルに適用した場合,LUT-GEMMはトークン生成遅延を大幅に高速化することを示した。
論文参考訳（メタデータ） (2022-06-20T03:48:17Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)
MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文参考訳（メタデータ） (2020-09-16T04:24:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。