論文の概要: Two-Stage Grid Optimization for Group-wise Quantization of LLMs
- arxiv url: http://arxiv.org/abs/2602.02126v1
- Date: Mon, 02 Feb 2026 14:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.191547
- Title: Two-Stage Grid Optimization for Group-wise Quantization of LLMs
- Title(参考訳): LLMの群量子化のための2段階グリッド最適化
- Authors: Junhan Kim, Gukryeol Lee, Seungwoo Son, Jeewook Kim, Yongkweon Jeon,
- Abstract要約: グループワイド量子化は、大規模言語モデルの低ビット量子化における精度劣化を緩和するための効果的な戦略である。
本稿では,階層的再構成損失を明示的に最小化するグループスケールの2段階最適化フレームワークを提案する。
提案手法は群量子化を常に強化し, 無視できるオーバーヘッドで高い精度を実現する。
- 参考スコア(独自算出の注目度): 7.058456257544851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Group-wise quantization is an effective strategy for mitigating accuracy degradation in low-bit quantization of large language models (LLMs). Among existing methods, GPTQ has been widely adopted due to its efficiency; however, it neglects input statistics and inter-group correlations when determining group scales, leading to a mismatch with its goal of minimizing layer-wise reconstruction loss. In this work, we propose a two-stage optimization framework for group scales that explicitly minimizes the layer-wise reconstruction loss. In the first stage, performed prior to GPTQ, we initialize each group scale to minimize the group-wise reconstruction loss, thereby incorporating input statistics. In the second stage, we freeze the integer weights obtained via GPTQ and refine the group scales to minimize the layer-wise reconstruction loss. To this end, we employ the coordinate descent algorithm and derive a closed-form update rule, which enables efficient refinement without costly numerical optimization. Notably, our derivation incorporates the quantization errors from preceding layers to prevent error accumulation. Experimental results demonstrate that our method consistently enhances group-wise quantization, achieving higher accuracy with negligible overhead.
- Abstract(参考訳): グループワイド量子化は、大規模言語モデル(LLM)の低ビット量子化における精度劣化を緩和するための効果的な戦略である。
従来の手法では,GPTQはその効率性から広く採用されているが,グループスケールを決定する際には,入力統計やグループ間相関を無視し,階層的再構築損失を最小限に抑えるという目標と一致しない。
本研究では,階層的再構成損失を明示的に最小化するグループスケールの2段階最適化フレームワークを提案する。
GPTQの前に行われる第1段階では,グループ単位の復元損失を最小限に抑えるため,各グループスケールを初期化し,入力統計を取り入れた。
第2段階では, GPTQを用いて得られた整数重みを凍結し, グループスケールを改良し, 階層的再構成損失を最小限に抑える。
この目的のために、座標降下アルゴリズムを用いてクローズドフォーム更新ルールを導出し、コストのかかる数値最適化を伴わずに効率的な改善を可能にする。
この導出には, 先行層からの量子化誤差が組み込まれ, 誤差の蓄積を防止する。
実験結果から,提案手法は群量子化を常に向上し,無視可能なオーバーヘッドで高い精度で実現可能であることが示された。
関連論文リスト
- FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching [4.01326804806241]
Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
論文 参考訳(メタデータ) (2026-01-09T10:06:45Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Assigning Distinct Roles to Quantized and Low-Rank Matrices Toward Optimal Weight Decomposition [4.119890956388359]
我々は,低ランク成分をアクティベーションに敏感な重みを捕捉する特定の役割に割り当てる,ODLRI(Outlier-Driven Low-Rank Initialization)を導入する。
Llama2 (7B, 13B, 70B)、Llama3-8B、Mistral-7Bの実験は、ODLRIが一貫してアクティベーション・アウェア・エラーを低減し、量子化スケールを最小化し、低ビット設定におけるパープレキシティとゼロショット精度を改善することを示した。
論文 参考訳(メタデータ) (2025-06-02T09:15:13Z) - Quantization Meets Reasoning: Exploring and Mitigating Degradation of Low-Bit LLMs in Mathematical Reasoning [39.56908863102256]
低ビット後の量子化は、より厳しい設定で69.81%の数学的推論を損なう。
デプロイクリティカルな2つの問題に,プロセスレベルの精度で対処する。
われわれの設定では、332のキュレートされたサンプルと1つのGPUで3~5分計算すると、完全な精度のベースラインに向かって4ビットの重み計算が引き起こされる。
論文 参考訳(メタデータ) (2025-05-16T12:11:40Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。