論文の概要: R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization
- arxiv url: http://arxiv.org/abs/2511.21736v1
- Date: Fri, 21 Nov 2025 12:39:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.188659
- Title: R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization
- Title(参考訳): R2Q:Residual Refinement Quantizationによるロバスト2ビット大言語モデルを目指して
- Authors: Jiayi Chen, Jieqi Shi, Jing Huo, Chen Wu,
- Abstract要約: Residual Refinement Quantization (R2Q)は、2つのシーケンシャルな1ビットサブ量子化に分解する新しい2ビット量子化フレームワークである。
R2Qは、細粒度と粗粒度の両方で既存の2ビット量子化法より一貫して優れている。
- 参考スコア(独自算出の注目度): 20.861971198175674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of Large Language Models (LLMs) has brought substantial computational and memory demands, spurring the adoption of low-bit quantization. While 8-bit and 4-bit formats have become prevalent, extending quantization to 2 bits remains challenging due to severe accuracy degradation. To address this, we propose Residual Refinement Quantization (R2Q)-a novel 2-bit quantization framework that decomposes the process into two sequential 1-bit sub-quantizations, forming an adaptive quantization lattice. Extensive evaluations on Llama, OPT, and Qwen across diverse benchmarks-covering question answering, commonsense reasoning, and language modeling-demonstrate that R2Q consistently outperforms existing 2-bit quantization methods in both fine-grained and coarse-grained settings. By refining quantization through a residual learning mechanism, R2Q enhances performance, improves training stability, and accelerates convergence under extreme compression. Furthermore, its modular design enables seamless integration with existing quantization-aware training (QAT) frameworks.
- Abstract(参考訳): LLM(Large Language Models)の急速な進歩により、計算とメモリの要求が大きくなり、低ビット量子化が導入された。
8ビットと4ビットのフォーマットが普及しているが、量子化を2ビットに拡張することは、深刻な精度劣化のため、依然として困難である。
そこで本稿では,Residual Refinement Quantization (R2Q) という新しい2ビット量子化フレームワークを提案し,そのプロセスを2つの逐次1ビットサブ量子化に分解し,適応量子化格子を形成する。
Llama, OPT, Qwenに対する広範囲な評価は、様々なベンチマークを含む質問応答、コモンセンス推論、言語モデリング-デーモンストレートで、R2Qは、きめ細かい設定と粗い設定の両方で既存の2ビット量子化手法より一貫して優れていることを証明している。
残差学習機構を通じて量子化を精製することにより、R2Qは性能を高め、トレーニング安定性を改善し、極端な圧縮下で収束を加速する。
さらにモジュール設計により、既存の量子化対応トレーニング(QAT)フレームワークとのシームレスな統合が可能になる。
関連論文リスト
- MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Q-SAM2: Accurate Quantization for Segment Anything Model 2 [19.438737615421598]
効率的なセグメンテーションモデル2(SAM2)のための高精度な低ビット量子化法を提案する。
Q-SAM2は、量子化時の重量分布と活性化分布の特異性に起因する性能劣化に対処する。
実験の結果,Q-SAM2は高精度な推論が可能であり,効率は著しく向上した。
論文 参考訳(メタデータ) (2025-06-11T14:21:38Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。