論文の概要: QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching
- arxiv url: http://arxiv.org/abs/2602.12609v1
- Date: Fri, 13 Feb 2026 04:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.84752
- Title: QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching
- Title(参考訳): QuEPT:マルチビットスイッチングのためのワンショット校正を用いた量子化弾性精密変換器
- Authors: Ke Xu, Yixin Wang, Zhongcheng Li, Hao Cui, Jinshui Hu, Xingyi Zhang,
- Abstract要約: QuEPTは、ブロックワイドなマルチビットエラーを小さなデータスライスで1ショットのキャリブレーションで再構成する効率的なポストトレーニングスキームである。
様々な低ランクアダプタをカスケードすることで、予め定義された様々なビット幅に動的に適応することができる。
最適化を繰り返すことなく、一様量子化と混合精度量子化のリアルタイム切替をサポートする。
- 参考スコア(独自算出の注目度): 38.68820743653054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Elastic precision quantization enables multi-bit deployment via a single optimization pass, fitting diverse quantization scenarios.Yet, the high storage and optimization costs associated with the Transformer architecture, research on elastic quantization remains limited, particularly for large language models.This paper proposes QuEPT, an efficient post-training scheme that reconstructs block-wise multi-bit errors with one-shot calibration on a small data slice. It can dynamically adapt to various predefined bit-widths by cascading different low-rank adapters, and supports real-time switching between uniform quantization and mixed precision quantization without repeated optimization. To enhance accuracy and robustness, we introduce Multi-Bit Token Merging (MB-ToMe) to dynamically fuse token features across different bit-widths, improving robustness during bit-width switching. Additionally, we propose Multi-Bit Cascaded Low-Rank adapters (MB-CLoRA) to strengthen correlations between bit-width groups, further improve the overall performance of QuEPT. Extensive experiments demonstrate that QuEPT achieves comparable or better performance to existing state-of-the-art post-training quantization methods.Our code is available at https://github.com/xuke225/QuEPT
- Abstract(参考訳): 弾性量子化は, 単一最適化パスによるマルチビット展開が可能であり, 多様な量子化シナリオに適合する。トランスフォーマーアーキテクチャに関連する高ストレージと最適化コストは, 特に大規模言語モデルにおいて限定的であり, 小型データスライスの1ショットキャリブレーションによるブロックワイドマルチビットエラーを再構築する効率的なポストトレーニング方式QuEPTを提案する。
異なる低ランクアダプタをカスケードすることで、様々な事前定義されたビット幅に動的に適応でき、繰り返し最適化することなく、均一量子化と混合精度量子化のリアルタイム切替をサポートする。
ビット幅の異なるトークン機能を動的に融合し,ビット幅切替時のロバスト性を向上させるために,MB-ToMe(Multi-Bit Token Merging)を導入する。
さらに,ビット幅群間の相関性を強化し,QuEPTの全体的な性能を向上させるために,MB-CLoRA (Multi-Bit Cascaded Low-Rank Adapter) を提案する。
我々のコードはhttps://github.com/xuke225/QuEPTで公開されている。
関連論文リスト
- Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。
提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文 参考訳(メタデータ) (2025-10-23T20:19:48Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - Channel-Wise Mixed-Precision Quantization for Large Language Models [47.00361921910259]
大規模言語モデル(LLM)は、幅広い言語タスクで顕著な成功を収めている。
重みのみの量子化は、LCMのメモリフットプリントを削減するための有望な解決策である。
本稿では,CMPQ(Channel-Wise Mixed-Precision Quantization)を提案する。
論文 参考訳(メタデータ) (2024-10-16T21:34:41Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization [51.85834744835766]
任意のビット幅量子化のための新しい手法MBQuantを提案する。
本稿では,既存の任意のビット幅量子化法と比較して,MBQuantが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-14T10:17:09Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Understanding and Overcoming the Challenges of Efficient Transformer
Quantization [17.05322956052278]
トランスフォーマーベースのアーキテクチャは、幅広い自然言語処理タスクのデファクト標準モデルとなっている。
しかしながら、メモリフットプリントと高いレイテンシは、リソース制限されたデバイスへの効率的なデプロイメントと推論を禁止している。
変換器にはユニークな量子化の課題があり、すなわち、低ビットの固定点フォーマットで表すのが難しいハイダイナミックなアクティベーション範囲があることが示される。
論文 参考訳(メタデータ) (2021-09-27T10:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。