論文の概要: RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
- arxiv url: http://arxiv.org/abs/2505.03803v1
- Date: Fri, 02 May 2025 08:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.824783
- Title: RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
- Title(参考訳): RWKVQuant:スカラーおよびベクトル量子化のプロキシガイドハイブリッドによるRWKVファミリーの量子化
- Authors: Chen Xu, Yuxuan Yue, Zukang Xu, Xing Hu, Jiangyong Yu, Zhixuan Chen, Sifan Zhou, Zhihang Yuan, Dawei Yang,
- Abstract要約: RWKVは、Transformerに匹敵するパフォーマンスを持つモダンなRNNアーキテクチャであるが、リソース制約のあるデバイスにデプロイする際の課題に直面している。
本稿では,RWKVモデルに適したPTQフレームワークであるRWKVQuantを提案する。
実験の結果、RWKV-6-14Bは1%の精度損失と2.14倍のスピードで約3ビットに量子化できることがわかった。
- 参考スコア(独自算出の注目度): 10.42496371916904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RWKV is a modern RNN architecture with comparable performance to Transformer, but still faces challenges when deployed to resource-constrained devices. Post Training Quantization (PTQ), which is a an essential technique to reduce model size and inference latency, has been widely used in Transformer models. However, it suffers significant degradation of performance when applied to RWKV. This paper investigates and identifies two key constraints inherent in the properties of RWKV: (1) Non-linear operators hinder the parameter-fusion of both smooth- and rotation-based quantization, introducing extra computation overhead. (2) The larger amount of uniformly distributed weights poses challenges for cluster-based quantization, leading to reduced accuracy. To this end, we propose RWKVQuant, a PTQ framework tailored for RWKV models, consisting of two novel techniques: (1) a coarse-to-fine proxy capable of adaptively selecting different quantization approaches by assessing the uniformity and identifying outliers in the weights, and (2) a codebook optimization algorithm that enhances the performance of cluster-based quantization methods for element-wise multiplication in RWKV. Experiments show that RWKVQuant can quantize RWKV-6-14B into about 3-bit with less than 1% accuracy loss and 2.14x speed up.
- Abstract(参考訳): RWKVは、Transformerに匹敵するパフォーマンスを持つモダンなRNNアーキテクチャであるが、リソース制約のあるデバイスにデプロイする際の課題に直面している。
ポストトレーニング量子化(PTQ、Post Training Quantization)は、モデルサイズと推論遅延を低減するための重要な技術であり、Transformerモデルで広く使われている。
しかし、RWKVに適用すると性能が著しく低下する。
本稿では, RWKVの特性に固有の2つの重要な制約について検討し, 1) 非線形作用素はスムーズな量子化と回転型量子化の両方のパラメータ融合を妨げ, 余分な計算オーバーヘッドをもたらす。
2) 均一に分布する重みの量が大きいと、クラスタベースの量子化が困難になり、精度が低下する。
そこで本研究では,RWKVモデルに適したPTQフレームワークであるRWKVQuantを提案する。(1)一様性を評価し,重みの外れ値を特定することで,異なる量子化アプローチを適応的に選択できる粗いプロキシ,(2)RWKVにおける要素乗算のためのクラスタベースの量子化手法の性能を向上させるコードブック最適化アルゴリズムである。
実験の結果、RWKV-6-14Bは1%の精度損失と2.14倍のスピードで約3ビットに量子化できることがわかった。
関連論文リスト
- RWKV-Lite: Deeply Compressed RWKV for Resource-Constrained Devices [15.969537866628517]
モデルアーキテクチャの最適化から,RWKVアーキテクチャに合わせたポストトレーニング圧縮まで,一連の圧縮手法を提案する。
我々の手法は、RWKVモデルのメモリフットプリントを3.4倍 -- 5倍減らし、精度は無視できる程度に低下させる。
論文 参考訳(メタデータ) (2024-12-14T15:11:07Z) - Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.26304397935705]
画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-05T02:11:51Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。