論文の概要: P4Q: Learning to Prompt for Quantization in Visual-language Models
- arxiv url: http://arxiv.org/abs/2409.17634v1
- Date: Thu, 26 Sep 2024 08:31:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 21:53:57.467032
- Title: P4Q: Learning to Prompt for Quantization in Visual-language Models
- Title(参考訳): P4Q: ビジュアル言語モデルにおける量子化のためのプロンプトを学ぶ
- Authors: Huixin Sun, Runqi Wang, Yanjing Li, Xianbin Cao, Xiaolong Jiang, Yao Hu, Baochang Zhang,
- Abstract要約: 量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
- 参考スコア(独自算出の注目度): 38.87018242616165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pre-trained Vision-Language Models (VLMs) have gained prominence in various visual and multimodal tasks, yet the deployment of VLMs on downstream application platforms remains challenging due to their prohibitive requirements of training samples and computing resources. Fine-tuning and quantization of VLMs can substantially reduce the sample and computation costs, which are in urgent need. There are two prevailing paradigms in quantization, Quantization-Aware Training (QAT) can effectively quantize large-scale VLMs but incur a huge training cost, while low-bit Post-Training Quantization (PTQ) suffers from a notable performance drop. We propose a method that balances fine-tuning and quantization named ``Prompt for Quantization'' (P4Q), in which we design a lightweight architecture to leverage contrastive loss supervision to enhance the recognition performance of a PTQ model. Our method can effectively reduce the gap between image features and text features caused by low-bit quantization, based on learnable prompts to reorganize textual representations and a low-bit adapter to realign the distributions of image and text features. We also introduce a distillation loss based on cosine similarity predictions to distill the quantized model using a full-precision teacher. Extensive experimental results demonstrate that our P4Q method outperforms prior arts, even achieving comparable results to its full-precision counterparts. For instance, our 8-bit P4Q can theoretically compress the CLIP-ViT/B-32 by 4 $\times$ while achieving 66.94\% Top-1 accuracy, outperforming the learnable prompt fine-tuned full-precision model by 2.24\% with negligible additional parameters on the ImageNet dataset.
- Abstract(参考訳): 大規模な事前学習型ビジョンランゲージモデル(VLM)は、様々な視覚的およびマルチモーダルなタスクで注目されているが、下流のアプリケーションプラットフォームへのVLMの展開は、トレーニングサンプルとコンピューティングリソースの禁止要件のため、依然として困難である。
VLMの微調整と量子化は、緊急に必要なサンプルと計算コストを大幅に削減することができる。
QAT(Quantization-Aware Training)は大規模VLMを効果的に定量化できるが、低ビットのPTQ(Post-Training Quantization)は顕著なパフォーマンス低下に悩まされている。
そこで我々は,PTQモデルの認識性能を高めるために,コントラッシブ損失監視を活用する軽量アーキテクチャを設計し,微調整と量子化のバランスをとる手法を提案する。
本手法は,低ビット量化による画像特徴とテキスト特徴とのギャップを,テキスト表現を再編成する学習可能なプロンプトと,画像特徴とテキスト特徴の分布認識のための低ビットアダプタに基づいて効果的に低減することができる。
また,コサイン類似度予測に基づく蒸留損失を導入し,全精度教師を用いて定量化モデルを蒸留する。
実験の結果,P4Q法は先行技術よりも優れており,完全精度に匹敵する結果も得られた。
例えば、私たちの8ビットP4Qは理論的にCLIP-ViT/B-32を4$\times$で圧縮し、66.94\%のTop-1精度を実現し、ImageNetデータセットに無視できる追加パラメータを2.24\%で学習可能なプロンプト微調整完全精度モデルより優れています。
関連論文リスト
- 2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。
低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。
本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文 参考訳(メタデータ) (2024-06-10T06:06:11Z) - Oh! We Freeze: Improving Quantized Knowledge Distillation via Signal Propagation Analysis for Large Language Models [5.69541128149828]
大規模言語モデル(LLM)や拡散モデルといった大規模な生成モデルは、それぞれNLPとコンピュータビジョンの分野に革命をもたらした。
本研究では, 知識蒸留(KD-QAT)を用いた軽量量子化対応微調整技術を提案し, 4ビット量化LDMの性能向上を図る。
我々は, ovフリーズがほぼ浮動小数点精度, すなわちCommonsense Reasoningベンチマークにおいて0.7%未満の精度で精度を低下させることを示す。
論文 参考訳(メタデータ) (2024-03-26T23:51:44Z) - AffineQuant: Affine Transformation Quantization for Large Language Models [58.45460102764]
ポストトレーニング量子化(PTQ)は、その圧縮効率とトレーニングの文脈における費用対効果により、かなりの関心を集めている。
既存の大規模言語モデル(LLM)のPTQ手法は、事前量子化重みと後量子化重みの間の変換のスケーリングに最適化範囲を制限している。
本稿では,PTQ(AffineQuant)における等価アフィン変換を用いた直接最適化を提唱する。
論文 参考訳(メタデータ) (2024-03-19T08:40:21Z) - L4Q: Parameter Efficient Quantization-Aware Fine-Tuning on Large Language Models [5.304907804008533]
量子化学習(QAT)とローランド適応(LoRA)を統合し,量子化誤差を効果的に低減する手法であるL4Qを提案する。
メモリ最適化層設計を採用することで、L4QはQATのメモリオーバーヘッドを大幅に削減し、完全な量子化重みを生成する。
論文 参考訳(メタデータ) (2024-02-07T14:35:05Z) - MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision
Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。
我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文 参考訳(メタデータ) (2024-01-26T14:25:15Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - SQuAT: Sharpness- and Quantization-Aware Training for BERT [43.049102196902844]
シャープネスと量子化アウェアトレーニング(SQuAT)を提案する。
提案手法は,2,3,4ビット条件下で,最先端の量子化BERTモデルよりも1%向上する。
また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-13T16:52:19Z) - Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech
Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。
全精度ベースラインモデルと比較すると,wrの変化は無視できる。
Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文 参考訳(メタデータ) (2021-03-31T06:05:40Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。