Fugu-MT 論文翻訳(概要): Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers

論文の概要: Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers

arxiv url: http://arxiv.org/abs/2412.16553v1
Date: Sat, 21 Dec 2024 09:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.986698
Title: Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers
Title（参考訳）: 低ビットビジョン変換器におけるデータフリー量子化を実証するセマンティックス
Authors: Yunshan Zhong, Yuyao Zhou, Yuxin Zhang, Shen Li, Yong Li, Fei Chao, Zhanpeng Zeng, Rongrong Ji,
Abstract要約: セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
参考スコア（独自算出の注目度）: 59.772673692679085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-free quantization (DFQ), which facilitates model quantization without real data to address increasing concerns about data security, has garnered significant attention within the model compression community. Recently, the unique architecture of vision transformers (ViTs) has driven the development of specialized DFQ techniques. However, we observe that the synthetic images from existing methods suffer from the deficient semantics issue compared to real images, thereby compromising performance. Motivated by this, we propose SPDFQ, a Semantics Prompting Data-Free Quantization method for ViTs. First, SPDFQ incorporates Attention Priors Alignment (APA), which uses randomly generated attention priors to enhance the semantics of synthetic images. Second, SPDFQ introduces Multi-Semantic Reinforcement (MSR), which utilizes localized patch optimization to prompt efficient parameterization and diverse semantics in synthetic images. Finally, SPDFQ employs Softlabel Learning (SL), where soft learning targets are adapted to encourage more complex semantics and accommodate images augmented by MSR. Experimental results demonstrate that SPDFQ significantly outperforms existing methods. For instance, SPDFQ achieves a 15.52% increase in top-1 accuracy on ImageNet for W4A4 ViT-B
Abstract（参考訳）: データフリー量子化(DFQ)は、データセキュリティに関する懸念の高まりに対処するため、実際のデータ無しでモデル量子化を容易にするもので、モデル圧縮コミュニティの中で大きな注目を集めている。近年、視覚変換器(ViT)のユニークなアーキテクチャにより、DFQ技術の開発が進められている。しかし,既存手法の合成画像は実画像に比べて意味論上の問題に悩まされ,性能が損なわれる。そこで我々はSPDFQ(Semantics Prompting Data-Free Quantization method for ViTs)を提案する。まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。第二に、SPDFQは、局所化されたパッチ最適化を利用して、合成画像の効率的なパラメータ化と多様なセマンティクスを促進するマルチセマンティック強化(MSR)を導入している。最後に、SPDFQはSoftlabel Learning (SL)を採用し、ソフトラーニングターゲットはより複雑なセマンティクスを奨励し、MSRによって強化された画像に対応するように適応される。実験の結果,SPDFQは既存手法よりも有意に優れていた。例えば、SPDFQは、W4A4 ViT-BのImageNetにおいて、トップ1の精度が15.52%向上した。

関連論文リスト

Text-Visual Semantic Constrained AI-Generated Image Quality Assessment [47.575342788480505]
本稿では,AI生成画像におけるテキスト画像の一貫性と知覚歪みの両方を包括的に評価する統合フレームワークを提案する。このアプローチでは、複数のモデルから重要な機能を統合し、2つのコアモジュールを導入することで、上記の課題に取り組む。複数のベンチマークデータセットで実施されたテストは、SC-AGIQAが既存の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2025-07-14T16:21:05Z)
Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。 1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-07T07:49:31Z)
SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [55.02795214161371]
本研究ではセマンティック・マスケッドVQ-GAN(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化する手法を提案する。 SQ-GANは、セマンティックセマンティックセグメンテーションと新しいセマンティック条件適応マスクモジュール(SAMM)を使用して、画像のセマンティックな重要な特徴を選択的にエンコードする。
論文参考訳（メタデータ） (2025-02-13T17:35:57Z)
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文参考訳（メタデータ） (2024-12-31T13:39:08Z)
Vision Transformer-based Semantic Communications With Importance-Aware Quantization [13.328970689723096]
本稿では、無線画像伝送のための重要量化(IAQ)を用いた視覚変換器(ViT)に基づくセマンティック通信システムを提案する。筆者らのIAQフレームワークは, エラーのない, 現実的な通信シナリオにおいて, 従来の画像圧縮手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-08T19:24:47Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文参考訳（メタデータ） (2024-03-03T07:58:03Z)
Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文参考訳（メタデータ） (2024-02-29T12:18:43Z)
Semantic-aware Data Augmentation for Text-to-image Synthesis [19.28143363034362]
テキスト・ツー・イメージ合成(T2Isyn)では、拡張の知恵は、拡張されたペアデータ間のセマンティックミスマッチに苦しむ。本稿では,T2Isyn専用のSemantic-Aware Data Augmentationフレームワークを開発する。
論文参考訳（メタデータ） (2023-12-13T07:57:40Z)
Robustness-Guided Image Synthesis for Data-Free Quantization [15.91924736452861]
合成画像のセマンティクスを強化し,画像の多様性を向上させるために,ロバストネス誘導画像合成(RIS)を提案する。 RISは、合成画像のセマンティクスを強化し、画像の多様性を改善するための、シンプルだが効果的な方法である。我々は、データフリーな量子化の様々な設定に対して最先端の性能を実現し、他のデータフリーな圧縮タスクにも拡張できる。
論文参考訳（メタデータ） (2023-10-05T16:39:14Z)
Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。ストレージの要求が大きいため、一般ユーザからは広く採用されていない。本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-21T06:59:07Z)
Improving Scene Text Image Super-resolution via Dual Prior Modulation Network [20.687100711699788]
Scene Text Image Super- resolution (STISR) はテキスト画像の解像度と可視性を同時に向上することを目的としている。既存のアプローチは、シーンテキストのセマンティックな決定性の境界であるテキストのグローバルな構造を無視している。我々の研究はDPMN(Dual Prior Modulation Network)と呼ばれるプラグイン・アンド・プレイ・モジュールを提案する。
論文参考訳（メタデータ） (2023-02-21T02:59:37Z)
Semantic-Guided Generative Image Augmentation Method with Diffusion Models for Image Classification [48.640470032205265]
画像分類のための拡散モデルを用いた意味誘導型生成画像拡張法であるSGIDを提案する。具体的には、SGIDは拡散モデルを用いて、画像の多様性に優れた拡張画像を生成する。さらに、画像ラベルとキャプションを、拡張画像とオリジナル画像のセマンティック一貫性を維持するためのガイダンスとして用いている。
論文参考訳（メタデータ） (2023-02-04T02:47:41Z)
Towards Better Text-Image Consistency in Text-to-Image Generation [15.735515302139335]
私たちはSemantic similarity Distance(SSD)と呼ばれる新しいCLIPベースのメトリクスを開発した。さらに,異なる粒度で意味情報を融合できる並列深層核生成適応ネットワーク (PDF-GAN) を設計する。我々のPDF-GANは、CUBおよびCOCOデータセットの良好な画像品質を維持しながら、テキスト画像の一貫性を著しく向上させることができる。
論文参考訳（メタデータ） (2022-10-27T07:47:47Z)
Towards Semantic Communications: Deep Learning-Based Image Semantic Coding [42.453963827153856]
我々は,よりセマンティクスや帯域幅に敏感な画像データに対するセマンティクス通信を考案した。画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。実験の結果,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫した画像の再構成が可能であった。
論文参考訳（メタデータ） (2022-08-08T12:29:55Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)
Variable-Rate Deep Image Compression through Spatially-Adaptive Feature Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文参考訳（メタデータ） (2021-08-21T17:30:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。