論文の概要: E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring
- arxiv url: http://arxiv.org/abs/2605.16882v1
- Date: Sat, 16 May 2026 08:44:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.216936
- Title: E-PMQ: Expert-Guided Post-Merge Quantization with Merged-Weight Anchoring
- Title(参考訳): E-PMQ: マージウェイトアンカリングによるエキスパートガイドによるポストマージ量子化
- Authors: Wenjun Wang, Yanggan Gu, Shuo Cai, Yuanyi Wang, Pengkai Wang, Jianmin Wu, Hongxia Yang,
- Abstract要約: 本稿では,PMQ(Post-Merge Quantization)により,マージ後の効率的な量子化と低ビット展開が可能となることを示す。
我々は、エキスパート誘導型PMQフレームワークであるE-PMQを提案する。
これらの結果から,E-PMQは合併後の効果的な量子化と低ビット展開を可能にすることが示された。
- 参考スコア(独自算出の注目度): 25.088494564026423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Low-resource deployment constraints have made model quantization essential for deploying neural networks while preserving performance. Meanwhile, model merging has become an increasingly practical low-resource strategy for integrating multiple task- or domain-specialized experts into a single model without joint training or multi-model serving. Together, quantization and model merging enable an efficient low-resource deployment pipeline by integrating multiple experts into one low-bit model. We formulate this setting as Post-Merge Quantization (PMQ). We show that directly applying post-training quantization (PTQ) to a merged model is unreliable because two distinct deviations are coupled: the quantization deviation introduced by low-bit reconstruction and the expert-relative merging deviation inherited from model merging. To mitigate these deviations, we propose E-PMQ, an expert-guided PMQ framework that uses source expert weights to provide expert- guided output targets during layer-wise calibration, together with merged-weight anchoring to stabilize the calibration and preserve the integrated behavior of the merged model. On CLIP-ViT-B/32 eight-task merging, E-PMQ improves 4-bit GPTQ from 65.0% to 73.6% under Task Arithmetic and from 69.1% to 74.8% under TIES-Merging. On harder settings, E-PMQ improves GPTQ from 34.8% to 76.7% on 20-task CLIP-ViT-L/14 and from 78.26% to 83.34% on FLAN-T5- base GLUE. These results demonstrate that E-PMQ enables effective post-merge quantization and low-bit deployment.
- Abstract(参考訳): 低リソースデプロイメントの制約により、パフォーマンスを維持しながらニューラルネットワークのデプロイにモデル量子化が不可欠になった。
一方、モデルマージは、複数のタスクやドメインの専門家を共同トレーニングやマルチモデルサービスなしで単一のモデルに統合するための、ますます実践的な低リソース戦略になりつつある。
量子化とモデルマージによって、複数の専門家を1つの低ビットモデルに統合することで、効率的な低リソースデプロイメントパイプラインが可能になる。
この設定をPost-Merge Quantization (PMQ)として定式化する。
低ビット再構成による量子化偏差と,モデルマージから受け継いだエキスパート相対的融合偏差との2つの異なる偏差が結合されているため,統合モデルにPTQを直接適用することは信頼性が低いことを示す。
これらの偏差を緩和するために、E-PMQを提案する。E-PMQは、ソースエキスパートの重みを利用して、レイヤーワイドキャリブレーション中に専門家が導いた出力ターゲットを提供するとともに、マージウェイトアンカーを併用して、キャリブレーションを安定化し、マージモデルの統合的な挙動を維持する。
CLIP-ViT-B/328タスクマージでは、E-PMQは4ビットGPTQを65.0%から73.6%に改善し、TIES-Mergingでは69.1%から74.8%に改善した。
より厳しい設定では、20タスクのCLIP-ViT-L/14では34.8%から76.7%、FLAN-T5ベースGLUEでは78.26%から83.34%に改善されている。
これらの結果から,E-PMQは合併後の効果的な量子化と低ビット展開を可能にすることが示された。
関連論文リスト
- What Makes Low-Bit Quantization-Aware Training Work for Reasoning LLMs? A Systematic Study [59.44848132298657]
ポストトレーニング量子化(PTQ)は通常、特に低ビット設定でのタスクの推論において、大きな精度低下のコストが伴う。
本研究では,推論モデルに対する量子化認識学習(QAT)の体系的研究について述べる。
論文 参考訳(メタデータ) (2026-01-21T11:22:29Z) - Beyond Outliers: A Study of Optimizers Under Quantization [82.75879062804955]
量子化下でのモデルロバスト性に対する選択の影響について検討する。
モデルの性能が、異なるベースラインでトレーニングした場合にどのように低下するかを評価する。
異なるパラメータによる量子化対応トレーニングのスケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-09-27T21:15:22Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - ZeroQuant-FP: A Leap Forward in LLMs Post-Training W4A8 Quantization
Using Floating-Point Formats [25.543571445739936]
本研究では,大規模言語モデル(LLM)における浮動小数点量子化(FP)の実現可能性について検討する。
LLMでは、FP8のアクティベーションは整数(INT8)を一貫して上回り、性能エッジは10億を超えるパラメータを持つモデルではより顕著になる。
重量量子化では、FP4はINT4に匹敵する性能を示し、H100のようなFP対応ハードウェアへの展開を単純化している。
論文 参考訳(メタデータ) (2023-07-19T06:58:03Z) - Q-GADMM: Quantized Group ADMM for Communication Efficient Decentralized Machine Learning [66.18202188565922]
我々はQGADMM(QGADMM)という通信効率の高い分散機械学習(ML)アルゴリズムを提案する。
我々は,凸関数に対するQGADMMの収束性を証明しつつ,モデル化レベルとその確率を適応的に調整する新しい量子化法を開発した。
論文 参考訳(メタデータ) (2019-10-23T10:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。