論文の概要: CKA-Guided Modular Quantization: Beyond Bit-Width to Algorithmic Diversity
- arxiv url: http://arxiv.org/abs/2512.16282v1
- Date: Thu, 18 Dec 2025 08:01:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.976343
- Title: CKA-Guided Modular Quantization: Beyond Bit-Width to Algorithmic Diversity
- Title(参考訳): CKA-Guided Modular Quantization:bit-Widthを超えるアルゴリズムの多様性
- Authors: Jinhao Zhang, Yunquan Zhang, Daning Chen,
- Abstract要約: CKA Guided Modular Quantizationは、アルゴリズムによる異種量子化のための微調整不要なプラグアンドプレイフレームワークである。
実験により,本手法は一様量子化ベースラインと最先端混合精度法の両方を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 1.8035321048994772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current mainstream post-training quantization methods for large language models typically apply a uniform quantization strategy across all network layers, overlooking the substantial differences in algorithmic suitability among layers. To address this limitation, we propose CKA Guided Modular Quantization, a fine-tuning-free, plug-and-play framework for algorithmic heterogeneous quantization. Our method independently evaluates multiple PTQ algorithms on each layer and employs Linear Centered Kernel Alignment (CKA) as a metric to automatically select the optimal quantization strategy per layer. The individually optimized strategies are then integrated to construct a hybrid quantized model. Experiments demonstrate that our approach consistently outperforms both uniform quantization baselines and state-of-the-art mixed-precision methods across mainstream LLMs including LLaMA and Qwen ,in terms of perplexity (PPL) and downstream task performance.
- Abstract(参考訳): 現在の大規模言語モデルの学習後量子化手法は、一般に全てのネットワーク層に一様量子化戦略を適用し、層間のアルゴリズム的適合性のかなりの違いを見越す。
この制限に対処するため、アルゴリズムの不均一量子化のための微調整不要なプラグアンドプレイフレームワークであるCKA Guided Modular Quantizationを提案する。
提案手法は各層上の複数のPTQアルゴリズムを独立に評価し,CKA(Linear Centered Kernel Alignment)を指標として,各層毎の最適な量子化戦略を自動選択する。
個別に最適化された戦略は、ハイブリッド量子化モデルを構築するために統合される。
実験により,LLaMA や Qwen を含む主流 LLM における一様量子化ベースラインと最先端混合精度の両手法の両面において,パープレキシティ (PPL) と下流タスク性能の両面において一貫した性能が得られた。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Efficient Quantum Access Model for Sparse Structured Matrices using Linear Combination of Things [0.6138671548064355]
構成されたスパース行列に合わせたLCU(Linear Combination of Unitary)スタイルの分解のための新しいフレームワークを提案する。
LCUは変動型およびフォールトトレラントな量子アルゴリズムの基本的なプリミティブである。
我々は、空間性と構造をよりよく捉えることができる単純で単項でない作用素のコンパクトな集合であるシグマ基底を導入する。
論文 参考訳(メタデータ) (2025-07-04T17:05:07Z) - Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。
本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T13:53:58Z) - Dynamical cluster-based optimization of tensor network algorithms for quantum circuit simulations [0.0]
本稿では, 量子ビットを動的に絡み合うクラスタに配置し, 複数の回路層の正確な収縮を1ステップで実現する,標準的なTEBDアルゴリズムである"cluster-TEBD"のバリエーションを紹介する。
我々は、安定化器と非安定化器の両方のランダム回路をシミュレートし、最大1000ドルのキュービットと100ドルのクリフォードゲートと非クリフォードゲートの層を持ち、ショアの量子アルゴリズムを数万の層でシミュレートする際のこれらの拡張アルゴリズムの性能を分析する。
論文 参考訳(メタデータ) (2025-02-26T16:49:11Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Efficient Quantization Strategies for Latent Diffusion Models [20.942161659019554]
潜時拡散モデル(LDM)は時間とともに潜時変数の動的進化を捉える。
ポストトレーニング量子化(PTQ)は、ディープラーニングモデルの操作サイズを圧縮する手法である。
本研究では, LDMを効率的に定量化する量子化戦略を提案する。
論文 参考訳(メタデータ) (2023-12-09T01:47:16Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z) - Distribution-Flexible Subset Quantization for Post-Quantizing
Super-Resolution Networks [68.83451203841624]
本稿では,超高分解能ネットワークのためのポストトレーニング量子化手法であるDFSQを提案する。
DFSQは活性化のチャネルワイド正規化を行い、分布フレキシブルなサブセット量子化(SQ)を適用する
6ビットの量子化と8ビットの量子化では完全精度に匹敵する性能を達成し、4ビットの量子化では0.1dBのPSNR低下しか生じない。
論文 参考訳(メタデータ) (2023-05-10T04:19:11Z) - Adaptive pruning-based optimization of parameterized quantum circuits [62.997667081978825]
Variisyハイブリッド量子古典アルゴリズムは、ノイズ中間量子デバイスの使用を最大化する強力なツールである。
我々は、変分量子アルゴリズムで使用されるそのようなアンサーゼを「効率的な回路訓練」(PECT)と呼ぶ戦略を提案する。
すべてのアンサッツパラメータを一度に最適化する代わりに、PECTは一連の変分アルゴリズムを起動する。
論文 参考訳(メタデータ) (2020-10-01T18:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。