論文の概要: Improving Quantization with Post-Training Model Expansion
- arxiv url: http://arxiv.org/abs/2503.17513v1
- Date: Fri, 21 Mar 2025 19:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:37:27.365862
- Title: Improving Quantization with Post-Training Model Expansion
- Title(参考訳): ポストトレーニングモデル拡張による量子化の改善
- Authors: Giuseppe Franco, Pablo Monteagudo-Lago, Ian Colbert, Nicholas Fraser, Michaela Blott,
- Abstract要約: ポストトレーニングモデル拡張は、量子化共設計空間内のモデル品質を改善するための実行可能な戦略である。
本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 0.35377121774178694
- License:
- Abstract: The size of a model has been a strong predictor of its quality, as well as its cost. As such, the trade-off between model cost and quality has been well-studied. Post-training optimizations like quantization and pruning have typically focused on reducing the overall volume of pre-trained models to reduce inference costs while maintaining model quality. However, recent advancements have introduced optimization techniques that, interestingly, expand models post-training, increasing model size to improve quality when reducing volume. For instance, to enable 4-bit weight and activation quantization, incoherence processing often necessitates inserting online Hadamard rotations in the compute graph, and preserving highly sensitive weights often calls for additional higher precision computations. However, if application requirements cannot be met, the prevailing solution is to relax quantization constraints. In contrast, we demonstrate post-training model expansion is a viable strategy to improve model quality within a quantization co-design space, and provide theoretical justification. We show it is possible to progressively and selectively expand the size of a pre-trained large language model (LLM) to improve model quality without end-to-end retraining. In particular, when quantizing the weights and activations to 4 bits for Llama3 1B, we reduce the zero-shot accuracy gap to full precision by an average of 3% relative to both QuaRot and SpinQuant with only 5% more parameters, which is still a 3.8% reduction in volume relative to a BF16 reference model.
- Abstract(参考訳): モデルのサイズは、その品質とコストを強く予測している。
そのため、モデルコストと品質のトレードオフはよく研究されている。
量子化やプルーニングのようなポストトレーニングの最適化は、モデル品質を維持しながら推論コストを削減するために、トレーニング済みモデルの全体量を削減することに重点を置いている。
しかし、近年の進歩は、学習後モデルを拡張し、容積を下げる際の品質を改善するためにモデルサイズを拡大する最適化手法を導入している。
例えば、4ビットの重みとアクティベーション量子化を可能にするために、非コヒーレンス処理は、しばしば計算グラフにオンラインアダマール回転を挿入する必要がある。
しかし、もしアプリケーション要件を満たすことができなければ、一般的な解決策は量子化の制約を緩和することである。
対照的に、トレーニング後のモデル拡張は、量子化共設計空間におけるモデル品質を改善するための実行可能な戦略であり、理論的正当化を提供する。
本研究では,事前学習された大規模言語モデル (LLM) のサイズを段階的に選択的に拡張し,エンドツーエンドの再学習を伴わずにモデル品質を向上させることができることを示す。
特に、Llama3 1Bの重みとアクティベーションを4ビットに量子化する際、BF16参照モデルと比較して3.8%のボリュームで、QuaRotとSpinQuantの双方に対して平均3%の精度でゼロショット精度ギャップを全精度に削減する。
関連論文リスト
- FP=xINT:A Low-Bit Series Expansion Algorithm for Post-Training Quantization [3.560046736432574]
PTQ(Post-Training Quantization)は、事前訓練されたフル精度(FP)モデルを、トレーニングなしで量子化したバージョンに変換する。
既存の手法は、量子化ノイズによる極端に低い設定で性能と量子化効率を著しく低下させる。
この問題に対処するためのディープモデルシリーズ拡張フレームワークを導入し、キャリブレーションセットや微調整を必要とせずに、不定値モデルの迅速かつ正確な近似を可能にする。
論文 参考訳(メタデータ) (2024-12-09T08:50:28Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Scaling Laws for Precision [73.24325358259753]
トレーニングと推論の両方に"精度対応"のスケーリング法則を考案する。
推論では,学習後の量子化によって生じる劣化が,モデルがより多くのデータに基づいて訓練されるにつれて増加することが分かる。
トレーニングのために、我々のスケーリング法則は、異なるパーツの異なるモデルの損失を、異なる精度で予測することができる。
論文 参考訳(メタデータ) (2024-11-07T00:10:10Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - Hyperspherical Quantization: Toward Smaller and More Accurate Models [17.154801913113566]
ベクトル量子化は、モデルウェイトを高精度な埋め込みでインデックス化することで、モデルサイズを減らすことを目的としている。
バイナリや他の低精度量子化法は、モデルのサイズを32$times$まで削減できるが、かなりの精度低下を犠牲にすることができる。
より小型で高精度な圧縮モデルを生成するために, 3次量子化のための効率的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-24T04:42:15Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - HERO: Hessian-Enhanced Robust Optimization for Unifying and Improving
Generalization and Quantization Performance [43.478851400266926]
我々は、勾配に基づく学習プロセスを通じて、ヘッセン固有値を最小限に抑えるため、ヘッセンで強化された頑健な最適化手法HEROを提案する。
HEROは試験精度を最大3.8%向上させ、80%のトレーニングラベル摂動で最大30%高い精度を達成し、幅広い精度で最高のトレーニング後の量子化精度を実現する。
論文 参考訳(メタデータ) (2021-11-23T16:32:58Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。