論文の概要: EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
- arxiv url: http://arxiv.org/abs/2605.04062v1
- Date: Fri, 10 Apr 2026 15:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 06:56:26.552521
- Title: EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
- Title(参考訳): EdgeRazor: 混合精度量子化による大規模言語モデルのための軽量フレームワーク
- Authors: Shu-Hao Zhang, Le-Tong Huang, Xiang-Sheng Deng, Xin-Yi Zou, Chen Wu, Nan Li, Shao-Qun Zhang,
- Abstract要約: 量子化は、完全な精度のモデル重みとアクティベーションを低ビットフォーマットに変換する、有望な軽量技術として登場した。
We propose EdgeRazor, a lightweight framework for LLMs with mixed-precision and very low-bit weight Quantization。
- 参考スコア(独自算出の注目度): 11.001227228468572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have witnessed an increasing interest in deploying LLMs on resource-constrained devices, among which quantization has emerged as a promising lightweight technique that converts full-precision model weights and activations into lower-bit formats. Existing weight quantization approaches can be roughly divided into three categories: Post-Training Quantization (PTQ) that calibrates quantized parameters on a small dataset without retraining but suffers from severe performance degradation below 4-bit, Quantization-Aware Training (QAT) that searches low-bit parameters using surrogate gradients but demands substantial computational resources, and Quantization-Aware Distillation that integrates QAT with knowledge transfer from a full-precision teacher but manually selects features to distill and relies heavily on teacher-specific data. In this paper, we propose EdgeRazor, a lightweight framework for LLMs with mixed-precision and extremely low-bit weight quantization. The EdgeRazor framework contains three modules: Mixed-Precision Quantization-Aware Distillation for the fine-grained control of precision, Adaptive Feature Distillation that derives an $n$-bit student from its 16-bit teacher, and Entropy-Aware KL Divergence on both human-annotated and distilled datasets, whose forward-reverse balance is determined solely by the teacher's output distribution. Empirical investigations of EdgeRazor are conducted on base, instruction-tuned, and multimodal LLMs. Notably, EdgeRazor with 1.88-bit surpasses all contenders with the 3-bit precision, especially outperforms the leading 2-bit PTQ methods by 11.3 points, within a 4-10$\times$ lower training budget than the leading QAT approach. EdgeRazor delivers higher compression ratios at all bit width; the 1.58-bit Qwen3-0.6B reduces storage from 1.41 GB to 0.28 GB while accelerating decoding by 15.1$\times$ relative to the 16-bit baseline.
- Abstract(参考訳): 近年、リソース制約のあるデバイスにLSMをデプロイすることへの関心が高まっており、量子化は完全なモデルの重み付けとアクティベーションを低ビットフォーマットに変換する有望な軽量技術として現れている。
既存の量化アプローチは、トレーニング後の量子化(PTQ)は、小さなデータセット上で量子化パラメータをリトレーニングせずに校正するが、4ビット未満の性能低下に悩まされる、量子化意識訓練(QAT)、サロゲート勾配を使って低ビットパラメータを探索するが、相当な計算資源を必要とする、量子化意識蒸留(QAT)、QATを完全精度の教師からの知識伝達と統合するが、教師固有のデータに大きく依存する特徴を手動で選択する、という3つのカテゴリに分けられる。
本稿では,混合精度と極低ビット量量子化を備えたLDMのための軽量フレームワークであるEdgeRazorを提案する。
EdgeRazorフレームワークには、3つのモジュールが含まれている: 精度のきめ細かい制御のためのMixed-Precision Quantization-Aware Distillation、その16ビットの教師から$n$-bitの学生を誘導するAdaptive Feature Distillation、そしてEntropy-Aware KL Divergence on both human- Annotated and distilled datasets, which forward-reverse balance is only by the teacher's output distribution。
EdgeRazorの実証的な研究は、ベース、命令調整、マルチモーダルLLMで行われている。
特に1.88ビットのEdgeRazorは3ビットの精度で全ての競技者を追い越しており、特にトップの2ビットのPTQ手法を4-10$\times$のトレーニング予算で11.3ポイント上回っている。
1.58ビットのQwen3-0.6Bはストレージを1.41GBから0.28GBに減らし、デコーディングは16ビットベースラインに対して15.1$\times$で加速する。
関連論文リスト
- LBLLM: Lightweight Binarization of Large Language Models via Three-Stage Distillation [29.676785178178104]
本稿では,W(1+1)A4量子化を実現する軽量なバイナライズフレームワークであるLBLLMについて,新しい3段階量子化戦略を提案する。
LBLLMは1つのGPUで0.016Bトークンのみを使用してトレーニングされており、W2A4量子化設定における既存の最先端のバイナライズ手法を超越している。
論文 参考訳(メタデータ) (2026-04-21T07:25:02Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。
我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文 参考訳(メタデータ) (2025-04-10T02:19:03Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。
実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文 参考訳(メタデータ) (2024-02-17T14:26:57Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。