論文の概要: Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
- arxiv url: http://arxiv.org/abs/2509.11177v2
- Date: Tue, 16 Sep 2025 03:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 11:35:27.003273
- Title: Optimal Brain Restoration for Joint Quantization and Sparsification of LLMs
- Title(参考訳): LLMの結合量子化とスパース化のための最適脳再生
- Authors: Hang Guo, Yawei Li, Luca Benini,
- Abstract要約: 量子化と空間性を組み合わせることで、代替ソリューションを探究する。
この共同アプローチは有望ではあるが、重量分布の本質的に矛盾する要求のために新しい困難をもたらす。
我々は、両者の誤り補償によるプルーニングと量子化を整合させる汎用およびトレーニング不要なフレームワークである最適脳再生(OBR)を提案する。
- 参考スコア(独自算出の注目度): 26.03750191778535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Large Language Model (LLM) compression, such as quantization and pruning, have achieved notable success. However, as these techniques gradually approach their respective limits, relying on a single method for further compression has become increasingly challenging. In this work, we explore an alternative solution by combining quantization and sparsity. This joint approach, though promising, introduces new difficulties due to the inherently conflicting requirements on weight distributions: quantization favors compact ranges, while pruning benefits from high variance. To attack this problem, we propose Optimal Brain Restoration (OBR), a general and training-free framework that aligns pruning and quantization by error compensation between both. OBR minimizes performance degradation on downstream tasks by building on a second-order Hessian objective, which is then reformulated into a tractable problem through surrogate approximation and ultimately reaches a closed-form solution via group error compensation. Experiments show that OBR enables aggressive W4A4KV4 quantization with 50% sparsity on existing LLMs, and delivers up to 4.72x speedup and 6.4x memory reduction compared to the FP16-dense baseline.
- Abstract(参考訳): 近年のLarge Language Model (LLM)圧縮の進歩は,量子化やプルーニングといった顕著な成功を収めている。
しかし、これらの手法がそれぞれの限界に徐々に近づくにつれて、さらなる圧縮のために単一の方法に頼ることがますます困難になっている。
本研究では,量子化と空間性を組み合わせた代替解を提案する。
量子化はコンパクトな範囲を好んでおり、高い分散から利益を得る。
この問題に対処するために我々は,両者間の誤り補償によるプルーニングと量子化を整合させる汎用およびトレーニング不要なフレームワークである最適脳再生(OBR)を提案する。
OBRは2階のヘッセン目標の上に構築することで下流タスクの性能劣化を最小化し、サロゲート近似によりトラクタブルな問題に再構成され、最終的にはグループ誤差補償によって閉形式解に達する。
実験の結果、OBRは既存のLLMで50%の間隔で攻撃的なW4A4KV4量子化を可能にし、FP16高密度ベースラインと比較して最大4.72倍のスピードアップと6.4倍のメモリ削減を実現している。
関連論文リスト
- RaBiT: Residual-Aware Binarization Training for Accurate and Efficient LLMs [5.782015253162346]
残留バイナライゼーションは、バイナリ層を積み重ねることで、マットルフリーな推論を可能にする。
本稿では,残差階層をアルゴリズム的に強制することでコダプタ化を解決する新しい量子化フレームワークであるRaBiTを提案する。
RaBiTは最先端のパフォーマンスを実現し、ハードウェア集約型ベクトル量子化(VQ)の手法と競合する。
論文 参考訳(メタデータ) (2026-02-05T06:41:11Z) - Two-Stage Grid Optimization for Group-wise Quantization of LLMs [7.058456257544851]
グループワイド量子化は、大規模言語モデルの低ビット量子化における精度劣化を緩和するための効果的な戦略である。
本稿では,階層的再構成損失を明示的に最小化するグループスケールの2段階最適化フレームワークを提案する。
提案手法は群量子化を常に強化し, 無視できるオーバーヘッドで高い精度を実現する。
論文 参考訳(メタデータ) (2026-02-02T14:12:34Z) - Efficient Penalty-Based Bilevel Methods: Improved Analysis, Novel Updates, and Flatness Condition [51.22672287601796]
ペナルティに基づく手法は、双レベル最適化(BLO)問題を解くのに人気がある。
それらはしばしば、大きなペナルティ項によって引き起こされる滑らかさの増加に対応するために、低レベル(LL)問題と小さな外ループステップサイズを解決するためにインナーループ反復を必要とする。
この研究は、結合制約(CC)を伴う一般的なBLO問題を考察し、上位変数と下位変数を分離する新しいペナルティ改革を活用する。
論文 参考訳(メタデータ) (2025-11-20T20:48:14Z) - Don't Be Greedy, Just Relax! Pruning LLMs via Frank-Wolfe [61.68406997155879]
State-of-the-art Large Language Model (LLM) プルーニング手法は階層的に動作し、階層ごとのプルーニングエラーを最小限に抑え、完全な再トレーニングを回避する。
既存の手法は、刈り上げ対象の重量相互作用を無視する欲求凸に依存する。
提案手法は, 層ごとのプルーニング誤差を大幅に低減し, 最先端のGPTアーキテクチャにおいて高いベースラインを達成し, メモリ効率を保っている。
論文 参考訳(メタデータ) (2025-10-15T16:13:44Z) - FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning [65.26899091946417]
大規模言語モデル(LLM)は、特定のタスクに汎用モデルを適用するために不可欠である。
本稿では,FedLoDropを用いたFederated LoRAを提案する。FedLoDropは,Federated LoRAのトレーニング可能な行列の行と列にドロップアウトを適用する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T02:40:45Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。
既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。
これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文 参考訳(メタデータ) (2025-05-10T14:00:15Z) - Enhancing the Performance of Quantum Neutral-Atom-Assisted Benders Decomposition [0.0]
本稿では、混合整数線形プログラム(MILP)を解くためのハイブリッドベンダー分解フレームワークについて、これまでの研究の強化について述べる。
マスター問題は、擬似非拘束バイナリ最適化(QUBO)モデルとして再構成され、自動変換技術を用いて中性原子量子プロセッサ上で解決される。
論文 参考訳(メタデータ) (2025-03-05T14:02:06Z) - Optimizing Large Language Model Training Using FP4 Quantization [73.55459961002371]
量子化トレーニングは、低ビット演算によるコスト削減を可能にすることで、有望なソリューションを提供する。
この研究は、大規模言語モデル(LLM)のための最初のFP4トレーニングフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-01-28T18:04:50Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。