Fugu-MT 論文翻訳(概要): PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers

論文の概要: PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers

arxiv url: http://arxiv.org/abs/2209.05687v1
Date: Tue, 13 Sep 2022 01:55:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-14 12:52:48.868847
Title: PSAQ-ViT V2: Towards Accurate and General Data-Free Quantization for Vision Transformers
Title（参考訳）: PSAQ-ViT V2:視覚変換器の精度と一般データフリー量子化を目指して
Authors: Zhikai Li, Mengjuan Chen, Junrui Xiao, and Qingyi Gu
Abstract要約: データフリーな量子化は、モデル圧縮におけるデータのプライバシとセキュリティ上の懸念に対処する可能性がある。最近、PSAQ-ViTは、事前訓練された視覚変換器(ViT)からデータを生成するために、相対値、パッチ類似度を設計している。本稿では,より正確で汎用的なデータフリー量子化フレームワークであるPSAQ-ViT V2を提案する。
参考スコア（独自算出の注目度）: 2.954890575035673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Data-free quantization can potentially address data privacy and security concerns in model compression, and thus has been widely investigated. Recently, PSAQ-ViT designs a relative value metric, patch similarity, to generate data from pre-trained vision transformers (ViTs), achieving the first attempt at data-free quantization for ViTs. In this paper, we propose PSAQ-ViT V2, a more accurate and general data-free quantization framework for ViTs, built on top of PSAQ-ViT. More specifically, following the patch similarity metric in PSAQ-ViT, we introduce an adaptive teacher-student strategy, which facilitates the constant cyclic evolution of the generated samples and the quantized model (student) in a competitive and interactive fashion under the supervision of the full-precision model (teacher), thus significantly improving the accuracy of the quantized model. Moreover, without the auxiliary category guidance, we employ the task- and model-independent prior information, making the general-purpose scheme compatible with a broad range of vision tasks and models. Extensive experiments are conducted on various models on image classification, object detection, and semantic segmentation tasks, and PSAQ-ViT V2, with the naive quantization strategy and without access to real-world data, consistently achieves competitive results, showing potential as a powerful baseline on data-free quantization for ViTs. For instance, with Swin-S as the (backbone) model, 8-bit quantization reaches 82.13 top-1 accuracy on ImageNet, 50.9 box AP and 44.1 mask AP on COCO, and 47.2 mIoU on ADE20K. We hope that accurate and general PSAQ-ViT V2 can serve as a potential and practice solution in real-world applications involving sensitive data. Code will be released and merged at: https://github.com/zkkli/PSAQ-ViT.
Abstract（参考訳）: データフリー量子化は、モデルの圧縮におけるデータのプライバシーとセキュリティの懸念に対処する可能性があるため、広く研究されている。近年、PSAQ-ViTは、事前学習された視覚変換器(ViT)からデータを生成するために、相対値のパッチ類似度を設計し、ViTに対するデータフリー量子化を初めて達成している。本稿では、PSAQ-ViT上に構築された、より正確で汎用的なViTの量子化フレームワークであるPSAQ-ViT V2を提案する。具体的には, psaq-vit のパッチ類似度指標に従い, 全精度モデル (teacher) の監督下で競争的かつインタラクティブな方法で生成したサンプルと量子化モデル (student) の一定周期的進化を容易にする適応的教師・学生戦略を導入し, 量子化モデルの精度を大幅に向上させる。さらに,補助カテゴリ指導がなければ,タスクとモデルに依存しない事前情報を用い,汎用スキームを幅広いビジョンタスクやモデルに対応させる。画像分類, オブジェクト検出, セマンティックセグメンテーションタスク, PSAQ-ViT V2 の多種多様なモデルにおいて, 単純量子化戦略と実世界のデータへのアクセスを伴わずに, 競争的な結果を一貫して達成し, ViT のデータ自由量子化の強力なベースラインとしての可能性を示す。例えば、Swin-Sをバックボーンモデルとし、8ビット量子化はImageNetで82.13、COCOで50.9ボックスAPと44.1マスクAP、ADE20Kで47.2mIoUに達する。 PSAQ-ViT V2が、機密データを含む現実世界のアプリケーションにおいて、潜在的かつ実践的なソリューションとして機能することを願っている。コードは、https://github.com/zkkli/PSAQ-ViT.comでリリースされる。

関連論文リスト

Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文参考訳（メタデータ） (2025-05-06T15:29:32Z)
QSViT: A Methodology for Quantizing Spiking Vision Transformers [5.343921650701002]
ビジョントランスフォーマー(ViT)ベースのモデルでは、ビジョンベースのAIタスクにおける最先端のパフォーマンス(精度など)が示されている。しかし、リソースに制約のある組み込みAIシステムにおいて、その能力を実現することは、その固有の大きなメモリフットプリントのために困難である。本稿では,SViTモデルを体系的な量子化戦略により圧縮する新しい設計手法であるQSViTを提案する。
論文参考訳（メタデータ） (2025-04-01T16:34:46Z)
CLAMP-ViT: Contrastive Data-Free Learning for Adaptive Post-Training Quantization of ViTs [6.456189487006878]
視覚変換器(ViT)のためのデータフリー後学習量子化法であるCLAMP-ViTを提案する。我々は、近年の手法の限界、特に意味のあるパッチ間の関係を活用できないことを特定する。 CLAMP-ViTは2段階のアプローチを採用し、データ生成とモデル量子化の間に循環的に適応する。
論文参考訳（メタデータ） (2024-07-07T05:39:25Z)
MPTQ-ViT: Mixed-Precision Post-Training Quantization for Vision Transformer [7.041718444626999]
視覚変換器(MPTQ-ViT)のための混合精度後学習量子化フレームワークを提案する。我々のViT,DeiT,Swinに関する実験では,ImageNetデータセットのSOTAと比較して精度が大幅に向上した。
論文参考訳（メタデータ） (2024-01-26T14:25:15Z)
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。 DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文参考訳（メタデータ） (2023-09-04T08:26:47Z)
Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文参考訳（メタデータ） (2023-05-22T13:39:28Z)
ViTPose++: Vision Transformer for Generic Body Pose Estimation [70.86760562151163]
様々な側面から身体ポーズ推定を行うため, プレーン・ビジョン・トランスフォーマーの驚くほど優れた特性を示す。 ViTPoseは、特徴をエンコードするエンコーダと、ボディキーポイントをデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。実験により,大規模なViTPoseモデルの知識は,簡単な知識トークンによって簡単に小さなものに伝達できることが実証された。
論文参考訳（メタデータ） (2022-12-07T12:33:28Z)
Patch Similarity Aware Data-Free Quantization for Vision Transformers [2.954890575035673]
Patch similarity Aware data-free Quantization framework for Vision Transformersを提案する。本研究では,ガウス雑音と実画像の処理において,自己アテンションモジュールの特性を解析し,一般的な相違点(パッチ類似点)を明らかにする。 PSAQ-ViTの有効性を検証するため,様々なベンチマークで実験およびアブレーション実験を行った。
論文参考訳（メタデータ） (2022-03-04T11:47:20Z)
ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。 ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文参考訳（メタデータ） (2022-02-21T10:40:05Z)
Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。 ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文参考訳（メタデータ） (2021-10-09T18:36:00Z)
Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。 ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文参考訳（メタデータ） (2021-05-17T02:39:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。