論文の概要: Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers
- arxiv url: http://arxiv.org/abs/2412.16553v2
- Date: Mon, 30 Dec 2024 01:00:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 16:00:43.808341
- Title: Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers
- Title(参考訳): 低ビットビジョン変換器におけるデータフリー量子化を実証するセマンティックス
- Authors: Yunshan Zhong, Yuyao Zhou, Yuxin Zhang, Shen Li, Yong Li, Fei Chao, Zhanpeng Zeng, Rongrong Ji,
- Abstract要約: セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
- 参考スコア(独自算出の注目度): 59.772673692679085
- License:
- Abstract: Data-free quantization (DFQ), which facilitates model quantization without real data to address increasing concerns about data security, has garnered significant attention within the model compression community. Recently, the unique architecture of vision transformers (ViTs) has driven the development of specialized DFQ techniques. However, we observe that the synthetic images from existing methods suffer from the deficient semantics issue compared to real images, thereby compromising performance. Motivated by this, we propose SPDFQ, a Semantics Prompting Data-Free Quantization method for ViTs. First, SPDFQ incorporates Attention Priors Alignment (APA), which uses randomly generated attention priors to enhance the semantics of synthetic images. Second, SPDFQ introduces Multi-Semantic Reinforcement (MSR), which utilizes localized patch optimization to prompt efficient parameterization and diverse semantics in synthetic images. Finally, SPDFQ employs Softlabel Learning (SL), where soft learning targets are adapted to encourage more complex semantics and accommodate images augmented by MSR. Experimental results demonstrate that SPDFQ significantly outperforms existing methods. For instance, SPDFQ achieves a 15.52% increase in top-1 accuracy on ImageNet for W4A4 ViT-B
- Abstract(参考訳): データフリー量子化(DFQ)は、データセキュリティに関する懸念の高まりに対処するため、実際のデータ無しでモデル量子化を容易にするもので、モデル圧縮コミュニティの中で大きな注目を集めている。
近年、視覚変換器(ViT)のユニークなアーキテクチャにより、DFQ技術の開発が進められている。
しかし,既存手法の合成画像は実画像に比べて意味論上の問題に悩まされ,性能が損なわれる。
そこで我々はSPDFQ(Semantics Prompting Data-Free Quantization method for ViTs)を提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQは、局所化されたパッチ最適化を利用して、合成画像の効率的なパラメータ化と多様なセマンティクスを促進するマルチセマンティック強化(MSR)を導入している。
最後に、SPDFQはSoftlabel Learning (SL)を採用し、ソフトラーニングターゲットはより複雑なセマンティクスを奨励し、MSRによって強化された画像に対応するように適応される。
実験の結果,SPDFQは既存手法よりも有意に優れていた。
例えば、SPDFQは、W4A4 ViT-BのImageNetにおいて、トップ1の精度が15.52%向上した。
関連論文リスト
- Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - Semantic-aware Data Augmentation for Text-to-image Synthesis [19.28143363034362]
テキスト・ツー・イメージ合成(T2Isyn)では、拡張の知恵は、拡張されたペアデータ間のセマンティックミスマッチに苦しむ。
本稿では,T2Isyn専用のSemantic-Aware Data Augmentationフレームワークを開発する。
論文 参考訳(メタデータ) (2023-12-13T07:57:40Z) - Robustness-Guided Image Synthesis for Data-Free Quantization [15.91924736452861]
合成画像のセマンティクスを強化し,画像の多様性を向上させるために,ロバストネス誘導画像合成(RIS)を提案する。
RISは、合成画像のセマンティクスを強化し、画像の多様性を改善するための、シンプルだが効果的な方法である。
我々は、データフリーな量子化の様々な設定に対して最先端の性能を実現し、他のデータフリーな圧縮タスクにも拡張できる。
論文 参考訳(メタデータ) (2023-10-05T16:39:14Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。
本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-12T20:49:07Z) - Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。
さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。
我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-10-27T07:47:47Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。