論文の概要: Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.17809v1
- Date: Fri, 21 Nov 2025 22:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.440712
- Title: Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models
- Title(参考訳): 大規模言語モデルの学習後量子化のための適応層幅変換
- Authors: Cuong Pham, Hoang Anh Dung, Cuong C. Nguyen, Trung Le, Gustavo Carneiro, Jianfei Cai, Thanh-Toan Do,
- Abstract要約: 大規模言語モデルは、デプロイメントにかなりの計算資源を必要とする。
効果的な量子化の主な障害は、活性化と重みの体系的な外れ値にある。
本稿では,層ごとの最適変換を体系的に決定する適応変換選択フレームワークを提案する。
- 参考スコア(独自算出の注目度): 47.54958360970588
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models require significant computational resources for deployment, making quantization essential for practical applications. However, the main obstacle to effective quantization lies in systematic outliers in activations and weights, which cause substantial LLM performance degradation, especially at low-bit settings. While existing transformation-based methods like affine and rotation transformations successfully mitigate outliers, they apply the homogeneous transformation setting, i.e., using the same transformation types across all layers, ignoring the heterogeneous distribution characteristics within LLMs. In this paper, we propose an adaptive transformation selection framework that systematically determines optimal transformations on a per-layer basis. To this end, we first formulate transformation selection as a differentiable optimization problem to achieve the accurate transformation type for each layer. However, searching for optimal layer-wise transformations for every model is computationally expensive. To this end, we establish the connection between weight distribution kurtosis and accurate transformation type. Specifically, we propose an outlier-guided layer selection method using robust $z$-score normalization that achieves comparable performance to differentiable search with significantly reduced overhead. Comprehensive experiments on LLaMA family models demonstrate that our adaptive approach consistently outperforms the widely-used fixed transformation settings. For example, our method achieves an improvement of up to 4.58 perplexity points and a 2.11% gain in average six-task zero-shot accuracy under aggressive W3A3K2V2 quantization settings for the LLaMA-3-8B model compared to the current best existing method, FlatQuant, demonstrating the necessity of heterogeneous transformation selection for optimal LLM quantization.
- Abstract(参考訳): 大規模言語モデルは、デプロイにかなりの計算資源を必要とするため、実用的なアプリケーションには量子化が不可欠である。
しかし、有効量子化の主な障害は、活性化と重みの体系的な異常値であり、特に低ビット環境では、LLM性能が著しく低下する。
アフィンや回転変換のような既存の変換ベースの手法は、アウトリーチを緩和することに成功したが、全ての層で同じ変換型を使用し、LLM内の不均一分布特性を無視する等質変換設定を適用する。
本稿では,階層ごとの最適変換を体系的に決定する適応変換選択フレームワークを提案する。
この目的のために、まず、各層に対する正確な変換タイプを達成するために、微分可能な最適化問題として変換選択を定式化する。
しかし,各モデルに対して最適層変換を求めるのは計算コストがかかる。
この目的のために、重み分布カルテシスと正確な変換タイプとの接続を確立する。
具体的には,頑健な$z$-score正規化を用いた外周誘導層選択法を提案する。
LLaMAファミリーモデルに関する総合的な実験は、我々の適応的アプローチが広く使われている固定変換設定よりも一貫して優れていることを示した。
例えば、LLaMA-3-8Bモデルに対する攻撃的W3A3K2V2量子化設定では、最大4.58パープレキシティポイントと平均6タスクゼロショット精度が2.11%向上した。
関連論文リスト
- Taming LLMs by Scaling Learning Rates with Gradient Grouping [49.91587150497186]
大きな言語モデル(LLM)のトレーニングは、その大規模で異質なアーキテクチャのため、課題を提起する。
SGG(Scaling with Gradient Grouping)は、動的グルーピングとグループ固有のスケーリングによる適応的な学習率推定を改善するグラデーションラッパーである。
論文 参考訳(メタデータ) (2025-06-01T15:30:37Z) - Efficient Shapley Value-based Non-Uniform Pruning of Large Language Models [43.4962029013024]
大規模言語モデル(LLM)のプルーニングは、性能を保ちながら、モデルのサイズと計算の複雑さを減らすための有望なソリューションである。
LLMのためのShapley Value-based Non-Uniform Pruning (SV-NUP)法を提案する。
このアプローチは,各トランス層がモデル全体の性能に与える影響を定量的に評価し,各層に最適化されたプルーニング予算を割り当てることで,臨界パラメータを維持できる。
論文 参考訳(メタデータ) (2025-05-03T07:57:02Z) - Beyond One-Size-Fits-All Pruning via Evolutionary Metric Search for Large Language Models [18.57876883968734]
適応型LLMプルーニングのための効率的な進化的最適化フレームワークである textbftextscOptiShear を紹介する。
我々のフレームワークは,メタプルーニングメトリック上に構築された効率的な検索空間と,迅速な評価のためのモデルワイド再構成誤差の2つの重要なイノベーションを特徴としている。
論文 参考訳(メタデータ) (2025-02-15T09:17:38Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - Studying Evolutionary Solution Adaption Using a Flexibility Benchmark Based on a Metal Cutting Process [39.05320053926048]
システム柔軟性のためのバイオインスパイアされたフレームワークの観点から、異なる生産要件を最適化することを検討する。
NSGA-IIの柔軟性は,1)2つのタスクの解を同時に最適化し,より適応性が高いと期待されるソース間の解を得る,2)アクティベートあるいは非アクティベート可能な様々な可能性に対応する,アクティブな非アクティブなジェノタイプという2つの変種によって拡張される。
論文 参考訳(メタデータ) (2023-05-31T12:07:50Z) - Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。
このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。
本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文 参考訳(メタデータ) (2021-02-07T20:53:23Z) - Efficient Semantic Image Synthesis via Class-Adaptive Normalization [116.63715955932174]
クラス適応正規化(CLADE)は、セマンティッククラスにのみ適応する軽量かつ等価なバリアントである。
セマンティクスレイアウトから計算したクラス内位置マップエンコーディングを導入し,cladeの正規化パラメータを変調する。
提案されたCLADEは異なるSPADEベースのメソッドに一般化し、SPADEと比較して同等の生成品質を達成できる。
論文 参考訳(メタデータ) (2020-12-08T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。