論文の概要: GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs
- arxiv url: http://arxiv.org/abs/2603.25385v1
- Date: Thu, 26 Mar 2026 12:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.288334
- Title: GlowQ: Group-Shared LOw-Rank Approximation for Quantized LLMs
- Title(参考訳): GlowQ: 量子化LDMのためのグループ共有Law-Rank近似
- Authors: Selim An, Il hong Suh, Yeseong Kim,
- Abstract要約: BitsAndBytes、AWQ、GPTQなどの量子化技術は、低ビット表現を使用すると精度が低下する。
低ランク補正法はすべてのレイヤを復元し、デコーダブロックにエラー訂正モジュールを挿入する。
本稿では,グループ共有の低ランク近似であるGlowQを提案する。
- 参考スコア(独自算出の注目度): 3.482440978847644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization techniques such as BitsAndBytes, AWQ, and GPTQ are widely used as a standard method in deploying large language models but often degrades accuracy when using low-bit representations, e.g., 4 bits. Low-rank correction methods (e.g., LQER, QERA, ASER) has been proposed to mitigate this issue, however, they restore all layers and insert error-correction modules into every decoder block, which increases latency and memory overhead. To address this limitation, we propose GlowQ, a group-shared low-rank approximation for quantized LLMs that caches a single shared right factor per input-sharing group and restores only the groups or layers that yield the highest accuracy benefit. GlowQ computes the high-precision projection once per input-sharing group and reuses it across its modules, reducing parameter and memory overhead, and retaining the expressivity of layer-specific corrections. We also propose a selective variant, GlowQ-S, that applies the cached shared module only where it provides the largest benefit. Compared with strong baselines, our approach reduces TTFB by (5.6%) and increases throughput by (9.6%) on average, while reducing perplexity on WikiText-2 by (0.17%) and increasing downstream accuracy by 0.42 percentage points. The selective model GlowQ-S further reduces latency, cutting TTFB by (23.4%) and increasing throughput by (37.4%), while maintaining accuracy within 0.2 percentage points on average.
- Abstract(参考訳): BitsAndBytes、AWQ、GPTQといった量子化技術は、大規模な言語モデルをデプロイする標準的な手法として広く使われているが、低ビット表現(例えば、4ビット)を使用すると精度が低下することが多い。
低ランク補正法(LQER、QERA、ASER)はこの問題を軽減するために提案されているが、全てのレイヤを復元し、デコーダブロックにエラー訂正モジュールを挿入することで遅延とメモリオーバーヘッドを増大させる。
この制限に対処するために、GlowQを提案する。これは量子化LDMのためのグループ共有低ランク近似であり、入力共有グループごとに1つの共有右要素をキャッシュし、最も高い精度の利益をもたらすグループまたはレイヤのみを復元する。
GlowQは入力共有グループ毎に1度精度のプロジェクションを計算し、モジュール間で再利用し、パラメータとメモリオーバーヘッドを低減し、層固有の補正の表現性を維持する。
また、キャッシュされた共有モジュールを最も有利な場所にのみ適用する選択型GlowQ-Sを提案する。
強いベースラインと比較して,提案手法はTTFBを5.6%削減し,スループットを9.6%向上させるとともに,WikiText-2の難易度を0.17%低減し,下流精度を0.42ポイント向上させる。
選択モデルであるGlowQ-Sはさらにレイテンシを減少させ、TTFBを23.4%削減し、スループットを37.4%向上させ、平均0.2ポイント以内の精度を維持している。
関連論文リスト
- BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation [46.34608916687127]
低ランク分解スケーリング(LoRDS)は、この低ランク分解を通じて量子化の粒度を再考する統一フレームワークである。
空間的制約の「ブロックを壊す」ことで、LoRDSはシームレスな効率ライフサイクルを確立する。
LoRDSは、量子化タスクと下流細調整タスクの両方において、さまざまなモデルファミリの最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-01-30T08:46:02Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。
本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。
テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文 参考訳(メタデータ) (2024-11-10T19:59:54Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。