論文の概要: IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs
- arxiv url: http://arxiv.org/abs/2509.15455v1
- Date: Thu, 18 Sep 2025 21:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.916952
- Title: IMPQ: Interaction-Aware Layerwise Mixed Precision Quantization for LLMs
- Title(参考訳): IMPQ:LLMのための相互作用を考慮した層状混合精密量子化
- Authors: Junchen Zhao, Ali Derakhshan, Dushyant Bharadwaj, Jayden Kana Hyman, Junhao Dong, Sangeetha Abdu Jyothi, Ian Harris,
- Abstract要約: 混合精度量子化は説得力のある解であるが、従来の方法では平均精度が4ビット以下に低下する。
本稿では,これらの制約に対処する2つのイノベーションを提案する。
まず,混合精度量子化問題を階層間の協調ゲームとして構成し,Shapley-based Progressive Quantization Estimation (SPQE)を導入する。
次に、これらのShapley推定値を2次最適化形式に変換する対話型混合精度量子化(IMPQ)を提案する。
- 参考スコア(独自算出の注目度): 4.655407920049974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) promise impressive capabilities, yet their multi-billion-parameter scale makes on-device or low-resource deployment prohibitive. Mixed-precision quantization offers a compelling solution, but existing methods struggle when the average precision drops below four bits, as they rely on isolated, layer-specific metrics that overlook critical inter-layer interactions affecting overall performance. In this paper, we propose two innovations to address these limitations. First, we frame the mixed-precision quantization problem as a cooperative game among layers and introduce Shapley-based Progressive Quantization Estimation (SPQE) to efficiently obtain accurate Shapley estimates of layer sensitivities and inter-layer interactions. Second, building upon SPQE, we propose Interaction-aware Mixed-Precision Quantization (IMPQ) which translates these Shapley estimates into a binary quadratic optimization formulation, assigning either 2 or 4-bit precision to layers under strict memory constraints. Comprehensive experiments conducted on Llama-3, Gemma-2, and Qwen-3 models across three independent PTQ backends (Quanto, HQQ, GPTQ) demonstrate IMPQ's scalability and consistently superior performance compared to methods relying solely on isolated metrics. Across average precisions spanning 4 bit down to 2 bit, IMPQ cuts Perplexity by 20 to 80 percent relative to the best baseline, with the margin growing as the bit-width tightens.
- Abstract(参考訳): 大きな言語モデル(LLM)は印象的な能力を約束しますが、そのマルチビリオンパラメータスケールは、デバイス上または低リソースのデプロイメントを禁止します。
混合精度量子化(mixed-precision Quantization)は、説得力のあるソリューションを提供するが、従来の手法では、平均精度が4ビット以下に低下した場合に苦労する。
本稿では,これらの制約に対処する2つのイノベーションを提案する。
まず,混合精度量子化問題を階層間の協調ゲームとして構成し,Shapley-based Progressive Quantization Estimation (SPQE)を導入し,層感度と層間相互作用の正確なShapley推定値を得る。
第2に、SPQEに基づいて、これらのShapley推定値を2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進2進
Llama-3, Gemma-2, Qwen-3の3つの独立したPTQバックエンド(Quanto, HQQ, GPTQ)にまたがる総合的な実験により、IMPQのスケーラビリティと一貫した性能を示す。
4ビットから2ビットまでの平均精度で、IMPQはパープレキシティを最高のベースラインと比較して20~80%削減し、ビット幅が狭まるにつれてマージンが増加する。
関連論文リスト
- MixA-Q: Revisiting Activation Sparsity for Vision Transformers from a Mixed-Precision Quantization Perspective [1.8282805097381256]
MixA-Qは、混合精度アクティベーション量子化フレームワークである。
本稿では,2分岐スウィンブロックを導入し,高いビット精度と低ビット精度のアクティベーションを別々に処理する。
PTQ構成の精度を損なうことなく、MixA-Qがトレーニング不要な1.35倍の高速化を実現することを示す。
論文 参考訳(メタデータ) (2025-07-25T10:13:14Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。
モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。
RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-03-03T18:46:33Z) - Mix-QViT: Mixed-Precision Vision Transformer Quantization Driven by Layer Importance and Quantization Sensitivity [0.0]
Mix-QViTは2つの基準に基づいて各レイヤにビット幅を割り当てる説明可能性駆動MPQフレームワークである。
学習後量子化のために、クリップされたチャネルワイド量子化法を導入する。
論文 参考訳(メタデータ) (2025-01-10T21:36:20Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。