論文の概要: Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost
- arxiv url: http://arxiv.org/abs/2602.03120v1
- Date: Tue, 03 Feb 2026 05:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.25975
- Title: Quantized Evolution Strategies: High-precision Fine-tuning of Quantized LLMs at Low-precision Cost
- Title(参考訳): 量子化進化戦略:低コストでの量子化LDMの高精度微調整
- Authors: Yinggan Xu, Risto Miikkulainen, Xin Qiu,
- Abstract要約: トレーニング後の量子化(PTQ)は、メモリ制限されたデバイスに大規模言語モデル(LLM)をデプロイするために不可欠である。
本稿では,量子化空間内で直接,全パラメータの微調整を行う最適化パラダイムである量子化進化戦略(QES)を紹介する。
QESは、算術的推論タスクにおいて、最先端のゼロ階微調整法よりも大幅に優れている。
- 参考スコア(独自算出の注目度): 12.23633538816503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Post-Training Quantization (PTQ) is essential for deploying Large Language Models (LLMs) on memory-constrained devices, yet it renders models static and difficult to fine-tune. Standard fine-tuning paradigms, including Reinforcement Learning (RL), fundamentally rely on backpropagation and high-precision weights to compute gradients. Thus they cannot be used on quantized models, where the parameter space is discrete and non-differentiable. While Evolution Strategies (ES) offer a backpropagation-free alternative, optimization of the quantized parameters can still fail due to vanishing or inaccurate gradient. This paper introduces Quantized Evolution Strategies (QES), an optimization paradigm that performs full-parameter fine-tuning directly in the quantized space. QES is based on two innovations: (1) it integrates accumulated error feedback to preserve high-precision gradient signals, and (2) it utilizes a stateless seed replay to reduce memory usage to low-precision inference levels. QES significantly outperforms the state-of-the-art zeroth-order fine-tuning method on arithmetic reasoning tasks, making direct fine-tuning for quantized models possible. It therefore opens up the possibility for scaling up LLMs entirely in the quantized space. The source code is available at https://github.com/dibbla/Quantized-Evolution-Strategies .
- Abstract(参考訳): メモリ制約のあるデバイスにLLM(Large Language Models)をデプロイするにはPTQ(Post-Training Quantization)が不可欠である。
強化学習(RL)を含む標準的な微調整パラダイムは、基本的に勾配を計算するためにバックプロパゲーションと高精度ウェイトに依存している。
したがって、パラメータ空間は離散的で微分不可能な量子化モデルでは使用できない。
Evolution Strategies (ES) はバックプロパゲーションフリーの代替手段を提供するが、量子化されたパラメータの最適化はいまだに消失または不正確な勾配のために失敗する可能性がある。
本稿では、量子化空間で直接フルパラメータ微調整を行う最適化パラダイムである量子化進化戦略(QES)を紹介する。
QESは,(1)高精度勾配信号を保存するために蓄積されたエラーフィードバックを統合し,(2)高精度推論レベルまでメモリ使用量を減らすためにステートレスなシード再生を利用する。
QESは、算術的推論タスクにおける最先端のゼロ階微調整法を著しく上回り、量子化モデルの直接微調整を可能にする。
したがって、LLMを量子化された空間で完全にスケールアップする可能性が開ける。
ソースコードはhttps://github.com/dibbla/Quantized-Evolution-Strategiesで入手できる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Boost Post-Training Quantization via Null Space Optimization for Large Language Models [66.73751310500656]
既存の大規模言語モデル(LLM)の学習後量子化手法は驚くべき成功を収めている。
余分な性能向上は、既存の量子化戦略がより圧縮されたモデルの開発を支援するには不十分であることを示唆している。
我々は、量子化後の重みを入力アクティベーションのヌル空間内に配置することで、量子化誤差を効果的に緩和することができると論じる。
論文 参考訳(メタデータ) (2025-05-21T14:07:07Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - Training Deep Learning Models with Norm-Constrained LMOs [56.00317694850397]
線形最小化オラクル(LMO)を用いて問題の幾何学に適応する新しいアルゴリズム群を提案する。
我々は,Adamに頼らずに,我々のアルゴリズムであるScionを用いたナノGPTトレーニングの大幅な高速化を示す。
論文 参考訳(メタデータ) (2025-02-11T13:10:34Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - OAC: Output-adaptive Calibration for Accurate Post-training Quantization [28.67781845829386]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。
ほとんどのPTQは、モデル出力を無視した層ワイドユークリッド損失に基づいて量子化誤差を定式化する。
キャリブレーションプロセスにモデル出力を組み込むために,出力適応量子化(OAC)を提案する。
論文 参考訳(メタデータ) (2024-05-23T20:01:17Z) - QFT: Quantized Full-parameter Tuning of LLMs with Affordable Resources [35.16907522675046]
大規模言語モデル(LLM)は、さまざまな自然言語処理タスクに顕著な影響を与えている。
下流データセットでトレーニング済みのモデルを微調整することで、大幅なパフォーマンス向上を実現している。
このプロセスは通常、大量の高価なハイエンドGPUを必要とする。
トレーニング状態の量子化と格納を行う量子化フルパラメータチューニングフレームワークであるQFTを提案する。
論文 参考訳(メタデータ) (2023-10-11T02:47:40Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。