論文の概要: UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
- arxiv url: http://arxiv.org/abs/2512.03383v1
- Date: Wed, 03 Dec 2025 02:33:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 11:56:42.330845
- Title: UniQL: Unified Quantization and Low-rank Compression for Adaptive Edge LLMs
- Title(参考訳): UniQL: 適応エッジLLMのための統一量子化と低ランク圧縮
- Authors: Hung-Yueh Chiang, Chi-Chih Chang, Yu-Chen Lu, Chien-Yu Lin, Kai-Chiang Wu, Mohamed S. Abdelfattah, Diana Marculescu,
- Abstract要約: 学習後量子化と低ランク圧縮を一体化したUniQLを導入し,エッジLLMのデバイス上でのプルーニングレートについて述べる。
UniQLは、Transformers、State Space Models(SSM)、ハイブリッドモデルの量子化と低ランク圧縮を統合する一般的なフレームワークである。
当社のフレームワークは,シングルパスワークフローにおいて,クラウド上でウェイトソート,微調整,量子化を行うと同時に,デバイス上でのプルーニングレートを最大35%まで向上させる。
- 参考スコア(独自算出の注目度): 22.43695132973238
- License:
- Abstract: Deploying large language model (LLM) models on mobile platforms faces significant challenges due to the limited memory and shared computational resources of the device. Resource availability may be an issue as it is directly impacted by the current device workload, adding to the uncertainty of model deployment. We introduce UniQL, a unified post-training quantization and low-rank compression framework with on-device configurable pruning rates for edge LLMs. UniQL is a general framework that integrates quantization and low-rank compression for Transformers, State Space Models (SSMs), and hybrid models to support diverse edge applications. In our proposed joint framework, we introduce an efficient structured weight-sorting method that speeds up computation by 20x, quantization-aware singular value decomposition (SVD) to minimize quantization errors, state-aware weight sorting for SSMs, and a fused rotary positional embedding (RoPE) kernel for pruned models. Our framework performs weight-sorting, fine-tuning, and quantization in the cloud in a single-pass workflow, while enabling on-device configurable pruning rates up to 35%. Our experiments show that quantized and pruned models achieve a memory reduction of 4x-5.7x and a token-throughput improvement of 2.7x-3.4x, maintaining accuracy within 5% of the original models at 15% pruning across Transformers (Llama3 and Qwen2.5), SSMs (Mamba2), and hybrid models (Nemotron-H and Bamba-v2). The code and quantized models are available at: https://github.com/enyac-group/UniQL.
- Abstract(参考訳): モバイルプラットフォームに大規模言語モデル(LLM)モデルをデプロイすることは,メモリの制限や計算資源の共有など,大きな課題に直面している。
リソースの可用性は、現在のデバイスワークロードに直接影響され、モデルデプロイメントの不確実性が増すため、問題になる可能性がある。
我々は、デバイス上で構成可能なエッジLLMのプルーニングレートを備えた、トレーニング後量子化と低ランク圧縮フレームワークUniQLを紹介する。
UniQLは、トランスフォーマー、ステートスペースモデル(SSM)、ハイブリッドモデルの量子化と低ランク圧縮を統合し、多様なエッジアプリケーションをサポートする一般的なフレームワークである。
提案するジョイントフレームワークでは,計算を20倍高速化する効率的な構造化重み付け手法,量子化誤差を最小化するための量子化対応特異値分解(SVD),SSMの状態認識重みソート,およびパーンドモデルのための融合回転型位置埋め込み(RoPE)カーネルを導入する。
当社のフレームワークは,単一パスワークフローでクラウド上で重み付け,微調整,量子化を行うと同時に,デバイス上で構成可能なプルーニングレートを最大35%まで実現している。
実験により, 量子化およびプルーニングモデルでは, 4x-5.7xのメモリ削減と2.7x-3.4xのトークンスループの改善が達成され, トランスフォーマー (Llama3, Qwen2.5), SSMs (Mamba2) とハイブリッドモデル (Nemotron-H, Bamba-v2) にまたがる15%のプルーニングで原モデルの5%以内の精度を維持した。
コードと量子化モデルは、https://github.com/enyac-group/UniQL.comで公開されている。
関連論文リスト
- Quamba2: A Robust and Scalable Post-training Quantization Framework for Selective State Space Models [23.045441347570886]
ステートスペースモデル(SSM)は、一貫したメモリ使用量と高性能のため、トランスフォーマーの魅力的な代替品として浮上している。
これを解決するために、ビット幅の少ないデータフォーマットでSSMを定量化することで、モデルのサイズを減らし、ハードウェアアクセラレーションの恩恵を受けることができる。
We present Quamba2, compatible with W8A8, W4A8, W4A16 for both Mamba1 and Mamba2 backbones。
論文 参考訳(メタデータ) (2025-03-28T21:10:39Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Bilaterally Slimmable Transformer for Elastic and Efficient Visual
Question Answering [75.86788916930377]
左右にスリム化可能なトランスフォーマー(BST)は任意のトランスフォーマーベースのVQAモデルに統合される。
1つのスリム化MCAN-BSTサブモデルは、VQA-v2で同等の精度を達成する。
最も小さなMCAN-BSTサブモデルは、推論中に9Mパラメータと0.16GのFLOPを持つ。
論文 参考訳(メタデータ) (2022-03-24T02:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。