論文の概要: Layer-Wise High-Impact Parameter Ratio Optimization in Post-Training Quantization for Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17801v1
- Date: Fri, 21 Nov 2025 21:47:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.435046
- Title: Layer-Wise High-Impact Parameter Ratio Optimization in Post-Training Quantization for Large Language Models
- Title(参考訳): 大規模言語モデルの後処理量子化における層幅高Impactパラメータ比最適化
- Authors: Cuong Pham, Hoang Anh Dung, Cuong C. Nguyen, Trung Le, Gustavo Carneiro, Thanh-Toan Do,
- Abstract要約: トレーニング後の量子化(PTQ)は、これらの課題を最小限のオーバーヘッドで軽減するための有望なアプローチとして現れている。
既存のPTQ法は、極低ビット幅でかなりの精度の損失を経験する。
本研究では,高インパクトパラメータの層比を決定する2次最適化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.984541536225123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have significantly advanced natural language processing, but their massive parameter counts create substantial computational and memory challenges during deployment. Post-training quantization (PTQ) has emerged as a promising approach to mitigate these challenges with minimal overhead. While existing PTQ methods can effectively quantize LLMs, they experience substantial accuracy loss at extremely low bit-widths, primarily due to high-impact parameters that significantly influence quantization performance. Several approaches address these issues by identifying and retaining the high-impact parameters in FP16 format. However, they apply fixed ratios of high-impact parameters across all layers, overlooking layer-wise sensitivity variations. In this paper, we propose a quadratic optimization framework that determines layer-specific ratios of high-impact parameters while considering inter-layer dependencies. We quantize high-impact parameters to moderate bit-widths, which often result in negligible performance degradation in quantized LLMs, while the remaining parameters can be quantized to extremely low bit-widths. Under the same resource-constrained budget, this allows for preserving more high-impact parameters than methods that keep selecting a few in FP16 format. Additionally, the proposed framework allows us to leverage an advanced quantization method that often requires extensive learnable parameters solely for high-impact parameters, while applying a computationally efficient method to the rest. Our approach achieves an effective balance between computational efficiency and model accuracy while maintaining high performance compared to state-of-the-art methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、かなり高度な自然言語処理を持つが、その膨大なパラメータは、デプロイメント中にかなりの計算とメモリの問題を引き起こす。
トレーニング後の量子化(PTQ)は、これらの課題を最小限のオーバーヘッドで軽減するための有望なアプローチとして現れている。
既存のPTQ法はLLMを効果的に定量化できるが、主に量子化性能に大きな影響を及ぼす高インパクトパラメータにより、非常に低ビット幅でかなりの精度の損失を経験する。
いくつかのアプローチは、FP16フォーマットのハイインパクトパラメータを識別し、保持することで、これらの問題に対処する。
しかし、すべての層に高インパクトパラメータの固定比を適用し、層レベルでの感度変化を見越す。
本稿では,層間依存関係を考慮しつつ,高インパクトパラメータの層比を決定する2次最適化フレームワークを提案する。
我々は、高インパクトパラメータを適度なビット幅に量子化し、量子化LDMにおける無視可能な性能劣化を招き、残りのパラメータを極低ビット幅に量子化する。
同じリソース制約の予算の下では、FP16フォーマットでいくつかのパラメータを選択し続けるメソッドよりも、より高インパクトなパラメータを保存できる。
さらに,提案フレームワークでは,高インパクトパラメータのみに広く学習可能なパラメータを必要とする高度な量子化手法を応用し,計算効率のよい手法を応用することができる。
提案手法は,最先端手法と比較して高い性能を維持しつつ,計算効率とモデル精度の効果的なバランスを実現する。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - QPruner: Probabilistic Decision Quantization for Structured Pruning in Large Language Models [3.093903491123962]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを大幅に進歩させた。
構造化プルーニングはモデルサイズの削減に有効な手法であるが、しばしば精度を著しく低下させる。
我々は、微調整と推論の両方でメモリ消費を減らすために、構造化プルーニングフレームワークに量子化を導入する。
モデルサイズの削減に構造化プルーニングを用いた新しいフレームワークQPrunerを提案する。
論文 参考訳(メタデータ) (2024-12-16T10:14:01Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Step-by-Step Unmasking for Parameter-Efficient Fine-tuning of Large Language Models [18.877891285367216]
我々はパラメータの重要度を連続的に計算する新しい選択型PEFT法である$textID3$を紹介した。
解析的に、$textID3$は勾配更新数を2倍に減らし、計算効率が向上することを示した。
論文 参考訳(メタデータ) (2024-08-26T17:58:53Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Memory-Efficient Fine-Tuning of Compressed Large Language Models via
sub-4-bit Integer Quantization [27.79783067245817]
大規模言語モデル(LLM)は、高いメモリ要求と計算コストのため、微調整とデプロイメントの課題に直面している。
本稿では,PEFT と量子化 LLM の利点を組み合わせた簡易かつ効果的な手法である PEQA (Efficient Adaptation and Quantization-aware) を提案する。
論文 参考訳(メタデータ) (2023-05-23T15:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。