Fugu-MT 論文翻訳(概要): LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid

論文の概要: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid

arxiv url: http://arxiv.org/abs/2407.10032v2
Date: Mon, 7 Oct 2024 20:29:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 21:43:45.160292
Title: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid
Title（参考訳）: LeanQuant:Loss-error-aware Gridによる正確でスケーラブルな大規模言語モデルの量子化
Authors: Tianyi Zhang, Anshumali Shrivastava,
Abstract要約: 大規模言語モデル(LLM)は、様々な領域において大きな可能性を示している。トレーニング後の量子化は、メモリ要求を減らし、遅延をデコードするための有望なテクニックとして登場した。正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuantを提案する。
参考スコア（独自算出の注目度）: 36.33062038680275
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown immense potential across various domains, but their high memory requirements and inference costs remain critical challenges for deployment. Post-training quantization (PTQ) has emerged as a promising technique to reduce memory requirements and decoding latency. However, recent accurate quantization methods often depend on specialized computations or custom data formats to achieve better model quality, which limits their compatibility with popular frameworks, as they require dedicated inference kernels tailored to specific hardware and software platforms, hindering wider adoption. Furthermore, many competitive methods have high resource requirements and computational overhead, making it challenging to scale them to hundreds of billions of parameters. In response to these challenges, we propose LeanQuant (Loss-error-aware Network Quantization), a novel quantization method that is accurate, versatile, and scalable. In the existing popular iterative loss-error-based quantization framework, we identify a critical limitation in prior methods: the min-max affine quantization grid fails to preserve model quality due to outliers in inverse Hessian diagonals. To overcome this fundamental issue, we propose learning loss-error-aware grids, instead of using non-adaptive min-max affine grids. Our approach not only produces quantized models that are more accurate but also generalizes to a wider range of quantization types, including affine and non-uniform quantization, enhancing compatibility with more frameworks. Extensive empirical evaluations on recent LLMs demonstrate that LeanQuant is highly accurate, comparing favorably against recent competitive baselines in model quality, and scalable, achieving very accurate quantization of Llama-3.1 405B, one of the largest open-source LLMs to date, using two Quadro RTX 8000-48GB GPUs in 21 hours.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な領域で大きな可能性を示しているが、その高いメモリ要求と推論コストは、デプロイメントにおいて重要な課題である。トレーニング後の量子化(PTQ)は、メモリ要求を減らし、遅延を復号化するための有望な技術として登場した。しかし、最近の正確な量子化手法は、特定のハードウェアやソフトウェアプラットフォームに適した専用の推論カーネルを必要とするため、一般的なフレームワークとの互換性を制限し、より優れたモデル品質を達成するために、特別な計算やカスタムデータフォーマットに依存することが多い。さらに、多くの競合する手法は高いリソース要求と計算オーバーヘッドを持ち、それを数十億のパラメータにスケールすることは困難である。これらの課題に対応するために、我々は、正確で汎用的でスケーラブルな新しい量子化手法であるLeanQuant(Loss-error-aware Network Quantization)を提案する。既存の反復的損失エラーに基づく量子化フレームワークでは、従来の手法において重要な制限を識別する: min-maxアフィン量子化グリッドは、逆ヘッセン対角線における外れ値によるモデル品質の維持に失敗する。この根本的な問題を解決するために、非適応的なmin-maxアフィングリッドの代わりに、ロスエラー対応グリッドの学習を提案する。我々のアプローチは、より正確な量子化モデルを生成するだけでなく、アフィンや非一様量子化を含むより広範な量子化タイプに一般化し、より多くのフレームワークとの互換性を向上する。最近のLLMに関する大規模な実証的な評価によると、LeanQuantはモデル品質の最近の競争ベースラインと好適に比較され、21時間で2つのQuadro RTX 8000-48GB GPUを使用してLlama-3.1 405Bの非常に正確な量子化を実現している。

関連論文リスト

SiLQ: Simple Large Language Model Quantization-Aware Training [3.09578981466695]
大規模言語モデルは、推論時間遅延、モデルサイズ、エネルギー消費を減らすために定量化することができる。妥当な時間で精度の損失を最小限に抑えた量子モデルを提供することが課題である。ここでは、先行する量子化手法よりも優れた、単純でエンドツーエンドな量子化対応トレーニング手法を示す。
論文参考訳（メタデータ） (2025-07-22T18:17:53Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
SKIM: Any-bit Quantization Pushing The Limits of Post-Training Quantization [7.198819240352308]
大きな言語モデル(LLM)は、様々なタスクにまたがって素晴らしいパフォーマンスを示すが、推論のためにそれらをデプロイすることは、課題を引き起こす。 SKIM: Scaled K-means clustering wIth Mixed precisionを提案する。モデルパープレキシティの観点からは、3ビット量子化LLaMAモデルとそれらの完全精度モデルとのギャップを平均16.3%縮小する。
論文参考訳（メタデータ） (2024-12-05T14:19:59Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
Quantized Prompt for Efficient Generalization of Vision-Language Models [27.98205540768322]
CLIPのような大規模事前学習型視覚言語モデルは、様々な分野で大きな成功を収めている。下流への適応の間、最も難しい問題は過度に適合し、破滅的な忘れ物である。本稿では,視覚言語モデルを正規化するための量子化について検討する。
論文参考訳（メタデータ） (2024-07-15T13:19:56Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文参考訳（メタデータ） (2023-09-05T01:39:09Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文参考訳（メタデータ） (2021-03-29T01:33:34Z)
Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文参考訳（メタデータ） (2020-11-29T03:53:49Z)
Once Quantization-Aware Training: High Performance Extremely Low-bit Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文参考訳（メタデータ） (2020-10-09T03:52:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。