論文の概要: RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
- arxiv url: http://arxiv.org/abs/2505.03803v1
- Date: Fri, 02 May 2025 08:47:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:35.824783
- Title: RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization
- Title(参考訳): RWKVQuant:スカラーおよびベクトル量子化のプロキシガイドハイブリッドによるRWKVファミリーの量子化
- Authors: Chen Xu, Yuxuan Yue, Zukang Xu, Xing Hu, Jiangyong Yu, Zhixuan Chen, Sifan Zhou, Zhihang Yuan, Dawei Yang,
- Abstract要約: RWKVは、Transformerに匹敵するパフォーマンスを持つモダンなRNNアーキテクチャであるが、リソース制約のあるデバイスにデプロイする際の課題に直面している。
本稿では,RWKVモデルに適したPTQフレームワークであるRWKVQuantを提案する。
実験の結果、RWKV-6-14Bは1%の精度損失と2.14倍のスピードで約3ビットに量子化できることがわかった。
- 参考スコア(独自算出の注目度): 10.42496371916904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RWKV is a modern RNN architecture with comparable performance to Transformer, but still faces challenges when deployed to resource-constrained devices. Post Training Quantization (PTQ), which is a an essential technique to reduce model size and inference latency, has been widely used in Transformer models. However, it suffers significant degradation of performance when applied to RWKV. This paper investigates and identifies two key constraints inherent in the properties of RWKV: (1) Non-linear operators hinder the parameter-fusion of both smooth- and rotation-based quantization, introducing extra computation overhead. (2) The larger amount of uniformly distributed weights poses challenges for cluster-based quantization, leading to reduced accuracy. To this end, we propose RWKVQuant, a PTQ framework tailored for RWKV models, consisting of two novel techniques: (1) a coarse-to-fine proxy capable of adaptively selecting different quantization approaches by assessing the uniformity and identifying outliers in the weights, and (2) a codebook optimization algorithm that enhances the performance of cluster-based quantization methods for element-wise multiplication in RWKV. Experiments show that RWKVQuant can quantize RWKV-6-14B into about 3-bit with less than 1% accuracy loss and 2.14x speed up.
- Abstract(参考訳): RWKVは、Transformerに匹敵するパフォーマンスを持つモダンなRNNアーキテクチャであるが、リソース制約のあるデバイスにデプロイする際の課題に直面している。
ポストトレーニング量子化(PTQ、Post Training Quantization)は、モデルサイズと推論遅延を低減するための重要な技術であり、Transformerモデルで広く使われている。
しかし、RWKVに適用すると性能が著しく低下する。
本稿では, RWKVの特性に固有の2つの重要な制約について検討し, 1) 非線形作用素はスムーズな量子化と回転型量子化の両方のパラメータ融合を妨げ, 余分な計算オーバーヘッドをもたらす。
2) 均一に分布する重みの量が大きいと、クラスタベースの量子化が困難になり、精度が低下する。
そこで本研究では,RWKVモデルに適したPTQフレームワークであるRWKVQuantを提案する。(1)一様性を評価し,重みの外れ値を特定することで,異なる量子化アプローチを適応的に選択できる粗いプロキシ,(2)RWKVにおける要素乗算のためのクラスタベースの量子化手法の性能を向上させるコードブック最適化アルゴリズムである。
実験の結果、RWKV-6-14Bは1%の精度損失と2.14倍のスピードで約3ビットに量子化できることがわかった。
関連論文リスト
- QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - LRQ-DiT: Log-Rotation Post-Training Quantization of Diffusion Transformers for Text-to-Image Generation [34.14174796390669]
トレーニング後の量子化(PTQ)は、メモリ使用量を減らすとともに、推論を高速化する有望なソリューションである。
既存のPTQ手法は、極端に低ビット設定下での厳しい性能劣化に悩まされる。
本稿では,効率的なPTQフレームワークであるLRQ-DiTを提案する。
論文 参考訳(メタデータ) (2025-08-05T14:16:11Z) - SegQuant: A Semantics-Aware and Generalizable Quantization Framework for Diffusion Models [12.716956318428652]
SegQuantは、相互モデルの汎用性を高めるために相補的なテクニックを適応的に組み合わせた、統一的な量子化フレームワークである。
SegQuantはTransformerベースの拡散モデルを越えて広く適用でき、強力なパフォーマンスを実現し、メインストリームのデプロイメントツールとのシームレスな互換性を確保している。
論文 参考訳(メタデータ) (2025-07-20T04:00:53Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations [17.975720202894905]
ポストトレーニング量子化(PTQ)は,行列演算のビット幅を削減することで,有望な解を提供する。
本稿では,チャネル活性化の正規化とアダマール変換の適用により,既存手法を拡張した新しい線形変換法HadaNormを提案する。
我々は,HadaNormが変圧器ブロックの様々な構成成分の量子化誤差を一貫して低減し,最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-06-11T16:54:34Z) - RWKV-Lite: Deeply Compressed RWKV for Resource-Constrained Devices [15.969537866628517]
モデルアーキテクチャの最適化から,RWKVアーキテクチャに合わせたポストトレーニング圧縮まで,一連の圧縮手法を提案する。
我々の手法は、RWKVモデルのメモリフットプリントを3.4倍 -- 5倍減らし、精度は無視できる程度に低下させる。
論文 参考訳(メタデータ) (2024-12-14T15:11:07Z) - Exploring Real&Synthetic Dataset and Linear Attention in Image Restoration [47.26304397935705]
画像復元は、劣化した入力から高品質な画像を復元することを目的としている。
既存のメソッドにはイテレーションと設定のための統一的なトレーニングベンチマークがない。
本稿では,画像複雑性に基づいた新しい画像フィルタリング手法であるReSynという大規模IRデータセットを提案する。
論文 参考訳(メタデータ) (2024-12-05T02:11:51Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models [33.372947082734946]
本稿では,NLPで使用されるRWKVモデルに適応した一連のアーキテクチャについて紹介する。
我々のモデルは、追加条件で順序付けされた入力を効率的に処理すると同時に、効果的にスケールアップするように設計されている。
その顕著な利点は空間集約の複雑さの低減であり、高解像度画像の処理に非常に適している。
論文 参考訳(メタデータ) (2024-04-06T02:54:35Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。