論文の概要: Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization
- arxiv url: http://arxiv.org/abs/2602.24059v1
- Date: Fri, 27 Feb 2026 14:47:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.467027
- Title: Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization
- Title(参考訳): 量子エキスパート:大規模ビジョンランゲージモデル量子化のためのエキスパートの混在を考慮したToken-Aware Adaptive Error Restruction
- Authors: Chenwei Jia, Baoting Li, Xuchong Zhang, Mingzhuo Wei, Bochen Lin, Hongbin Sun,
- Abstract要約: 学習後量子化(PTQ)は視覚言語モデル(VLM)の計算およびメモリオーバーヘッドを緩和する有効な手法として登場した。
我々は、VLMの量子化のための混合専門家によるトークン対応適応誤差補償である textbfQuant Experts (QE) を提案する。
- 参考スコア(独自算出の注目度): 3.6899131505284455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-Training Quantization (PTQ) has emerged as an effective technique for alleviating the substantial computational and memory overheads of Vision-Language Models (VLMs) by compressing both weights and activations without retraining the full model. Existing PTQ methods primarily rely on static identification and global compensation of sensitive or outlier channels, yet they often overlook the distributional differences of these important channels across inputs, leading to unsatisfactory quantization. In this work, we observe that the distributions and occurrence frequencies of important channels vary significantly both across modalities and among tokens, even within the same modality. Accordingly, we propose \textbf{Quant Experts (QE)}, a token-aware adaptive error compensation with mixture-of-experts for VLMs quantization. QE divides the important channels into token-independent and token-dependent groups. For the former, a shared expert is designed for most tokens to compensate for global quantization error using a low-rank adapter. For the latter, routed experts including multiple routed low-rank adapters are elaborated to compensate for local quantization error related to specific tokens. Extensive experiments demonstrate that QE consistently enhances task accuracy across various quantization settings and model scales, ranging from 2B to 70B parameters, while maintaining performance comparable to full-precision models.
- Abstract(参考訳): PTQ(Post-Training Quantization)は、VLM(Vision-Language Models)の計算およびメモリオーバーヘッドを軽減するための有効な手法として、重みとアクティベーションをフルモデルに再トレーニングすることなく圧縮する手法として登場した。
既存のPTQ法は主に機密チャネルや外部チャネルの静的な識別と大域的な補償に依存しているが、これらの重要なチャネルの分散的な違いをしばしば見落とし、不満足な量子化をもたらす。
本研究では, 重要なチャネルの分布と発生頻度が, 同じモダリティ内であっても, モダリティとトークンの間で大きく異なることを観察する。
そこで本稿では,VLMの量子化のために,トークン対応の適応型誤り補償法である \textbf{Quant Experts (QE)} を提案する。
QEは重要なチャネルをトークンに依存しないグループとトークンに依存したグループに分割する。
前者にとって、共有専門家は、ほとんどのトークンがローランクアダプタを使用してグローバル量子化エラーを補うように設計されている。
後者では、複数のルーティングされた低ランクアダプタを含むルーティングされた専門家が、特定のトークンに関連する局所量子化誤差を補うために精巧に検討されている。
大規模な実験では、QEは様々な量子化設定とモデルスケールでタスクの精度を継続的に向上し、2Bから70Bパラメータまでの範囲で、フル精度モデルに匹敵するパフォーマンスを維持している。
関連論文リスト
- A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs [64.8510381475827]
SMOE(Sparse Mixture-of-Experts)アーキテクチャは、大規模言語モデルを効率的にスケールするためにますます使われている。
SMoEモデルは専門家間で厳しい負荷不均衡に悩まされることが多く、専門家のごく一部がほとんどのトークンを受け取り、他のモデルは未利用である。
推定中のエキスパートルーティングの体系的解析を行い, (i) 負荷不均衡が持続し, バッチサイズが大きくなる, (ii) 選択頻度が, 専門家の重要度を確実に反映しない, (iii) 専門家の全体負荷と重要性を, キャリブレーションセットを用いて推定できる,という3つの知見を同定する。
論文 参考訳(メタデータ) (2026-02-23T15:11:16Z) - Rethinking Practical and Efficient Quantization Calibration for Vision-Language Models [11.411411301593011]
トレーニング後の量子化(PTQ)は、微調整なしで大規模言語モデルをデプロイするための主要なアプローチである。
token-level Importance-aware Layer-wise Quantization framework (TLQ)を提案する。
TLQは2つのモデル、3つのモデルスケール、および2つの量子化設定で評価され、すべての設定で一貫してパフォーマンス改善が達成される。
論文 参考訳(メタデータ) (2026-02-08T10:19:25Z) - VEQ: Modality-Adaptive Quantization for MoE Vision-Language Models [41.557274086591924]
PTQ(Post-Training Quantization)は、大量のメモリと計算オーバーヘッドに対処する効果的なトレーニング不要の手法である。
ビジュアルエキスパート量子化(VEQ)は、クロスモーダルな違いと専門家の不均一性に対応するために設計された、デュアルアウェアな量子化フレームワークである。
本手法は,従来のSOTA量子化法と比較して,Kim-VLでは2.04%,Qwen3-VLでは3.09%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-02-01T05:53:09Z) - KBVQ-MoE: KLT-guided SVD with Bias-Corrected Vector Quantization for MoE Large Language Models [13.773876289947323]
ベクトル量子化(VQ)は、大規模言語モデル(LLM)における超低ビット圧縮に有望なアプローチを提供する
KBVQ-MoE は,MoE ベースの LLM の超低ビット量子化を実現する新しい VQ フレームワークである。
さまざまなMOE LLMの実験により、KBVQ-MoEは既存の量子化法よりも精度がかなり高いことを示した。
論文 参考訳(メタデータ) (2026-01-30T06:57:17Z) - Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance [10.817003682434425]
Mixture-of-Experts (MoE) Large Language Model (LLM) は動的ルーティングとスパースアクティベーションを利用して効率とスケーラビリティを向上させる。
後トレーニング量子化(PTQ)は、MoEモデルに適用した場合、精度が著しく低下し、性能が低下する。
本稿では,MoEのスパースと動的特性が量子化に与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-02T08:51:55Z) - QSpec: Speculative Decoding with Complementary Quantization Schemes [53.960146187821685]
大規模言語モデル(LLM)における推論の高速化とメモリ消費削減のために量子化が広く採用されている
品質から効率を分離する新しい量子化パラダイムであるQSpecを提案する。
QSpecは重みとKVキャッシュの両方を段階的に再利用し、再トレーニングや補助モデルなしでほぼゼロコストで切り替えることができる。
論文 参考訳(メタデータ) (2024-10-15T05:57:51Z) - Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。
我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-07-22T09:45:16Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Overcoming Distribution Mismatch in Quantizing Image Super-Resolution Networks [53.23803932357899]
量子化は画像超解像(SR)ネットワークの精度を低下させる。
既存の作業は、テスト時間中に量子化範囲を動的に適応することで、この分散ミスマッチ問題に対処する。
本稿では,SRネットワークにおける分散ミスマッチ問題を効果的に克服する量子化対応学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T08:50:01Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。