論文の概要: MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Elastic LLMs
- arxiv url: http://arxiv.org/abs/2602.20191v1
- Date: Sat, 21 Feb 2026 21:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.451697
- Title: MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Elastic LLMs
- Title(参考訳): MoBiQuant:Token-Adaptive Elastic LLMのための混合ビット量子化
- Authors: Dongwei Wang, Jinhee Kim, Seokho Han, Denis Gudovskiy, Yohei Nakata, Tomoyuki Okuno, KhayTze Peong, Kang Eun Jeon, Jong Hwan Ko, Yiran Chen, Huanrui Yang,
- Abstract要約: MoBiQuantは、トークン感度に基づいて弾性LLM推論の重み付け精度を調整する新しいMixture-of-Bits量子化フレームワークである。
我々は, MoBiQuantが強い弾性を示し, 繰り返しキャリブレーションを伴わずにLLaMA3-8B上でのビット固有PTQの性能に適合できることを示した。
- 参考スコア(独自算出の注目度): 22.179895292564087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Changing runtime complexity on cloud and edge devices necessitates elastic large language model (LLM) deployment, where an LLM can be inferred with various quantization precisions based on available computational resources. However, it has been observed that the calibration parameters for quantization are typically linked to specific precisions, which presents challenges during elastic-precision calibration and precision switching at runtime. In this work, we attribute the source of varying calibration parameters to the varying token-level sensitivity caused by a precision-dependent outlier migration phenomenon.Motivated by this observation, we propose \texttt{MoBiQuant}, a novel Mixture-of-Bits quantization framework that adjusts weight precision for elastic LLM inference based on token sensitivity. Specifically, we propose the many-in-one recursive residual quantization that can iteratively reconstruct higher-precision weights and the token-aware router to dynamically select the number of residual bit slices. MoBiQuant enables smooth precision switching while improving generalization for the distribution of token outliers. Experimental results demonstrate that MoBiQuant exhibits strong elasticity, enabling it to match the performance of bit-specific calibrated PTQ on LLaMA3-8B without repeated calibration.
- Abstract(参考訳): クラウドとエッジデバイス上でのランタイムの複雑さの変化は、利用可能な計算資源に基づいた様々な量子化精度でLLMを推測できる、弾力性のある大規模言語モデル(LLM)デプロイメントを必要とする。
しかし、量子化のキャリブレーションパラメータは典型的には特定の精度と関連付けられており、これは実行時に弾性的精度のキャリブレーションと精度の切り替えの際の課題を示す。
本研究では, 種々のキャリブレーションパラメータの源泉を, 高精度なオフリエマイグレーション現象によるトークンレベルの変動感度とみなし, トークン感度に基づく弾性LDM推論の重み付けを行う新しい混合ビット量子化フレームワークである \texttt{MoBiQuant} を提案する。
具体的には、高い精度の重みを反復的に再構成できるマルチインワン再帰的残差量子化法と、残差ビットスライス数を動的に選択するトークン対応ルータを提案する。
MoBiQuantはトークンアウトレイラの分布の一般化を改善しつつ、スムーズな精度のスイッチングを可能にする。
実験の結果, MoBiQuantは高い弾性を示し, 繰り返しキャリブレーションを伴わずにLLaMA3-8B上でのビット固有校正PTQの性能に適合することがわかった。
関連論文リスト
- QuEPT: Quantized Elastic Precision Transformers with One-Shot Calibration for Multi-Bit Switching [38.68820743653054]
QuEPTは、ブロックワイドなマルチビットエラーを小さなデータスライスで1ショットのキャリブレーションで再構成する効率的なポストトレーニングスキームである。
様々な低ランクアダプタをカスケードすることで、予め定義された様々なビット幅に動的に適応することができる。
最適化を繰り返すことなく、一様量子化と混合精度量子化のリアルタイム切替をサポートする。
論文 参考訳(メタデータ) (2026-02-13T04:28:06Z) - ECO: Quantized Training without Full-Precision Master Weights [58.97082407934466]
Error-Compensating (ECO)は、量子化されたパラメータに直接更新を適用することで、マスターウェイトを除去する。
ECO は最適値の定数半径近傍に収束するが、素早いマスターウェイト除去は学習率に逆比例する誤差を生じさせる。
論文 参考訳(メタデータ) (2026-01-29T18:35:01Z) - STaMP: Sequence Transformation and Mixed Precision for Low-Precision Activation Quantization [21.93314755695813]
量子化は、生成AIモデルの推論レイテンシ、電力、メモリフットプリントを低減するための重要な方法である。
テキストシーケンス変換と混合精度(STaMP)量子化を提案する。
論文 参考訳(メタデータ) (2025-10-30T17:53:42Z) - Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - Q-Palette: Fractional-Bit Quantizers Toward Optimal Bit Allocation for Efficient LLM Deployment [15.802372921412198]
我々は,大言語モデル (LLM) の重み付けを,校正データはほとんどあるいは全く使わずに定量化する,PTQ(height-only post-training Quantization)について検討した。
まず、与えられたビット予算下でのガウス化重みに対する情報理論的に最適なビット割り当てを導出し、ガウスの歪み率境界に近づく微細な分数ビット量子化器が、ほぼ最適量子化性能を達成するために不可欠であることを明らかにした。
論文 参考訳(メタデータ) (2025-09-24T15:10:44Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - MixQuant: Mixed Precision Quantization with a Bit-width Optimization
Search [7.564770908909927]
量子化は、効率的なディープニューラルネットワーク(DNN)を作成する技術である
ラウンドオフ誤差に基づいて各層重みに対する最適な量子化ビット幅を求める検索アルゴリズムであるMixQuantを提案する。
我々は、MixQuantと最先端の量子化手法BRECQを組み合わせることで、BRECQ単独よりも優れた量子化モデル精度が得られることを示す。
論文 参考訳(メタデータ) (2023-09-29T15:49:54Z) - CSQ: Growing Mixed-Precision Quantization Scheme with Bi-level
Continuous Sparsification [51.81850995661478]
混合精度量子化はディープニューラルネットワーク(DNN)に広く応用されている
トレーニング中のビットレベル正規化とプルーニングに基づく動的精度調整の試みは、ノイズ勾配と不安定収束に悩まされている。
安定度を向上した混合精度量子化スキームを探索するビットレベル学習法である連続スカラー化量子化(CSQ)を提案する。
論文 参考訳(メタデータ) (2022-12-06T05:44:21Z) - Mixed Precision Low-bit Quantization of Neural Network Language Models
for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。
現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。
本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文 参考訳(メタデータ) (2021-11-29T12:24:02Z) - Mixed Precision of Quantization of Transformer Language Models for
Speech Recognition [67.95996816744251]
トランスフォーマーが表現する最先端のニューラルネットワークモデルは、実用アプリケーションにとってますます複雑で高価なものになりつつある。
現在の低ビット量子化法は、均一な精度に基づいており、量子化エラーに対するシステムの異なる部分での様々な性能感度を考慮できない。
最適局所精度設定は2つの手法を用いて自動的に学習される。
Penn Treebank (PTB)とSwitchboard corpusによるLF-MMI TDNNシステムの試験を行った。
論文 参考訳(メタデータ) (2021-11-29T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。