論文の概要: Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation
- arxiv url: http://arxiv.org/abs/2601.22716v1
- Date: Fri, 30 Jan 2026 08:46:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.330136
- Title: Breaking the Blocks: Continuous Low-Rank Decomposed Scaling for Unified LLM Quantization and Adaptation
- Title(参考訳): ブロックを破る - 統一LLM量子化と適応のための継続的低ランク分解スケーリング
- Authors: Pingzhi Tang, Ruijie Zhou, Fanxu Meng, Wenjie Pei, Muhan Zhang,
- Abstract要約: 低ランク分解スケーリング(LoRDS)は、この低ランク分解を通じて量子化の粒度を再考する統一フレームワークである。
空間的制約の「ブロックを壊す」ことで、LoRDSはシームレスな効率ライフサイクルを確立する。
LoRDSは、量子化タスクと下流細調整タスクの両方において、さまざまなモデルファミリの最先端のベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 46.34608916687127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current quantization methods for LLMs predominantly rely on block-wise structures to maintain efficiency, often at the cost of representational flexibility. In this work, we demonstrate that element-wise quantization can be made as efficient as block-wise scaling while providing strictly superior expressive power by modeling the scaling manifold as continuous low-rank matrices ($S = BA$). We propose Low-Rank Decomposed Scaling (LoRDS), a unified framework that rethinks quantization granularity through this low-rank decomposition. By "breaking the blocks" of spatial constraints, LoRDS establishes a seamless efficiency lifecycle: it provides high-fidelity PTQ initialization refined via iterative optimization, enables joint QAT of weights and scaling factors, and facilitates high-rank multiplicative PEFT adaptation. Unlike additive PEFT approaches such as QLoRA, LoRDS enables high-rank weight updates within a low-rank budget while incurring no additional inference overhead. Supported by highly optimized Triton kernels, LoRDS consistently outperforms state-of-the-art baselines across various model families in both quantization and downstream fine-tuning tasks. Notably, on Llama3-8B, our method achieves up to a 27.0% accuracy improvement at 3 bits over NormalFloat quantization and delivers a 1.5x inference speedup on NVIDIA RTX 4090 while enhancing PEFT performance by 9.6% on downstream tasks over 4bit QLoRA, offering a robust and integrated solution for unified compression and adaptation of LLMs.
- Abstract(参考訳): LLMの現在の量子化法は、しばしば表現の柔軟性を犠牲にして、効率を維持するためにブロックワイズ構造に依存している。
本研究では, 拡張多様体を連続低ランク行列(S = BA$)としてモデル化することにより, ブロックワイズスケーリングと同程度の効率で, 厳密な表現力を提供できることを示した。
この低ランク分解によって量子化の粒度を再考する統一フレームワークLoRDSを提案する。
空間的制約の「ブロックを破る」ことで、LoRDSはシームレスな効率のライフサイクルを確立し、反復最適化により改良された高忠実なPTQ初期化を提供し、重みとスケーリング係数の合同QATを可能にし、高階乗法PEFT適応を容易にする。
QLoRAのような付加的なPEFTアプローチとは異なり、LoRDSは低ランクの予算内でハイランクの重み付けを可能とし、追加の推論オーバーヘッドは発生しない。
高度に最適化されたTritonカーネルのサポートにより、LoRDSは、量子化および下流の微調整タスクの両方において、様々なモデルファミリにおける最先端のベースラインを一貫して上回っている。
特に、Llama3-8Bでは、通常のFloat量子化よりも最大27.0%の精度向上を実現し、NVIDIA RTX 4090上で1.5倍の高速化を実現し、4ビットQLoRA上の下流タスクにおいてPEFT性能を9.6%向上させ、LLMの統一圧縮と適応のための堅牢で統合されたソリューションを提供する。
関連論文リスト
- LoPRo: Enhancing Low-Rank Quantization via Permuted Block-Wise Rotation [6.797237769820339]
ポストトレーニング量子化(PTQ)は、比較的高い精度を維持しながら効果的なモデル圧縮を可能にする。
残留行列量子化を向上する新しい微調整不要なPTQアルゴリズムであるLoPRoを提案する。
実験により、LoPRoは2ビットおよび3ビットの量子化において既存の微調整不要のPTQ法より優れていることが示された。
論文 参考訳(メタデータ) (2026-01-27T14:56:04Z) - SpecQuant: Spectral Decomposition and Adaptive Truncation for Ultra-Low-Bit LLMs Quantization [18.039420989848484]
SpecQuantはアクティベーションアウトレーヤとチャネル間の分散に対処する2段階のフレームワークである。
LLaMA-3 8Bでは、SpecQuantはウェイトとアクティベーションの両方で4ビットの量子化を実現し、ゼロショット精度のギャップは全精度に比べてわずか1.5%に縮小した。
論文 参考訳(メタデータ) (2025-11-11T11:02:13Z) - ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning [32.55713482636133]
低ランク適応(LoRA)はこのコストを、低次元の部分空間に重み付けすることで効果的に削減する。
この貢献は、連続する低ランクインクリメントからのハイランクウェイト更新を徐々に蓄積することで、これらの制限を扱う。
再起動することなく効率よくシームレスな最適化を実現するために、この最適な選択は、元の低ランク行列の列を適切にスケーリングすることによって形成される。
論文 参考訳(メタデータ) (2025-10-27T19:59:46Z) - SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size [5.229694155440675]
大規模言語モデル(LLM)は、計算とメモリの問題に直面する。
SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size。
SDQ-LLMの特徴は、Over-Sampling Ratio (OSR) の連続層である。
論文 参考訳(メタデータ) (2025-09-27T14:49:58Z) - FlexiGPT: Pruning and Extending Large Language Models with Low-Rank Weight Sharing [59.12511498024836]
本稿では,重み付けスコアに基づいてモデルブロックを選択的にプルーする大規模言語モデル(LLM)をプルーする手法を提案する。
重み共有機構を用いて各刈り込みブロックを置換する原理的計量を提案する。
経験的評価は、既存の方法よりも大幅にパフォーマンスが向上したことを示している。
論文 参考訳(メタデータ) (2025-01-24T18:46:37Z) - SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。
SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文 参考訳(メタデータ) (2024-10-12T18:36:07Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。