論文の概要: FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching
- arxiv url: http://arxiv.org/abs/2601.05684v1
- Date: Fri, 09 Jan 2026 10:06:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.940793
- Title: FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching
- Title(参考訳): FLRQ:フレキシブル低ランクマトリックススケッチによる高速LDM量子化
- Authors: Hongyaoxing Gul, Lijuan Hu, Shuzi Niu, Fangfang Liu,
- Abstract要約: Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
- 参考スコア(独自算出の注目度): 4.01326804806241
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional post-training quantization (PTQ) is considered an effective approach to reduce model size and accelerate inference of large-scale language models (LLMs). However, existing low-rank PTQ methods require costly fine-tuning to determine a compromise rank for diverse data and layers in large models, failing to exploit their full potential. Additionally, the current SVD-based low-rank approximation compounds the computational overhead. In this work, we thoroughly analyze the varying effectiveness of low-rank approximation across different layers in representative models. Accordingly, we introduce \underline{F}lexible \underline{L}ow-\underline{R}ank \underline{Q}uantization (FLRQ), a novel solution designed to quickly identify the accuracy-optimal ranks and aggregate them to achieve minimal storage combinations. FLRQ comprises two powerful components, Rank1-Sketch-based Flexible Rank Selection (R1-FLR) and Best Low-rank Approximation under Clipping (BLC). R1-FLR applies the R1-Sketch with Gaussian projection for the fast low-rank approximation, enabling outlier-aware rank extraction for each layer. Meanwhile, BLC aims at minimizing the low-rank quantization error under the scaling and clipping strategy through an iterative method. FLRQ demonstrates strong effectiveness and robustness in comprehensive experiments, achieving state-of-the-art performance in both quantization quality and algorithm efficiency.
- Abstract(参考訳): 従来の学習後量子化(PTQ)は、モデルのサイズを減らし、大規模言語モデル(LLM)の推論を加速する効果的な手法と考えられている。
しかし、既存の低ランクのPTQ手法では、大きなモデルにおける様々なデータやレイヤの妥協ランクを決定するのに、コストのかかる微調整が必要であり、その潜在能力を最大限に活用できない。
さらに、現在のSVDベースの低ランク近似は計算オーバーヘッドを複雑にする。
本研究では,代表モデルにおいて,異なる層にまたがる低ランク近似の有効性を徹底的に解析する。
そこで,本研究では,精度と最適ランクを迅速に同定し,最小限のストレージの組み合わせを実現するために,新しい解法である \underline{F}lexible \underline{L}ow-\underline{R}ank \underline{Q}uantization (FLRQ) を導入する。
FLRQはRange1-Sketchベースのフレキシブルランク選択(R1-FLR)とBest Low-rank Approximation under Clipping(BLC)という2つの強力なコンポーネントで構成されている。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
一方,BLCは,反復的手法を用いて,スケーリングおよびクリッピング戦略の下での低ランク量子化誤差を最小化することを目的としている。
FLRQは、包括的実験において強い有効性と堅牢性を示し、量子化品質とアルゴリズム効率の両方で最先端の性能を達成する。
関連論文リスト
- PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Model-Preserving Adaptive Rounding [27.155444001204632]
しかし、別の量子化アルゴリズム (YAQA) は適応的なラウンドリングアルゴリズムであり、ネットワークの出力の誤差を直接考慮している。
YAQA は GPTQ/LDLQ よりも有効に優れており,これらの手法よりも$approx 30% の誤差を経験的に低減できることを示す。
論文 参考訳(メタデータ) (2025-05-29T01:53:00Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - QuantEase: Optimization-based Quantization for Language Models [17.333778751252392]
本研究は,近年のLarge Language Models (LLMs) の進歩から,様々な量子化層の量子化(PTQ)を導入する。
当社のCDベースのアプローチは、ベクター操作にのみ依存して、簡単にアップデートできる。
我々はまた、完全な精度で重要な重量(外積)を維持することができるような、外れ値のアプローチも検討している。
論文 参考訳(メタデータ) (2023-09-05T01:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。