論文の概要: Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers
- arxiv url: http://arxiv.org/abs/2412.14633v1
- Date: Thu, 19 Dec 2024 08:38:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:33:05.703086
- Title: Progressive Fine-to-Coarse Reconstruction for Accurate Low-Bit Post-Training Quantization in Vision Transformers
- Title(参考訳): 視覚変換器の高精度低ビット後量子化のためのプログレッシブファイン・ツー・カウス再構成
- Authors: Rui Ding, Liang Yong, Sihuan Zhao, Jing Nie, Lihui Chen, Haijun Liu, Xichuan Zhou,
- Abstract要約: 後トレーニング量子化(PTQ)は視覚変換器(ViT)の圧縮に広く採用されている。
低ビット表現に量子化されると、完全精度の表現に比べて大きな性能低下がしばしば起こる。
低ビット量子化ビジョントランスの性能を大幅に向上させるPFCR法を提案する。
- 参考スコア(独自算出の注目度): 13.316135182889296
- License:
- Abstract: Due to its efficiency, Post-Training Quantization (PTQ) has been widely adopted for compressing Vision Transformers (ViTs). However, when quantized into low-bit representations, there is often a significant performance drop compared to their full-precision counterparts. To address this issue, reconstruction methods have been incorporated into the PTQ framework to improve performance in low-bit quantization settings. Nevertheless, existing related methods predefine the reconstruction granularity and seldom explore the progressive relationships between different reconstruction granularities, which leads to sub-optimal quantization results in ViTs. To this end, in this paper, we propose a Progressive Fine-to-Coarse Reconstruction (PFCR) method for accurate PTQ, which significantly improves the performance of low-bit quantized vision transformers. Specifically, we define multi-head self-attention and multi-layer perceptron modules along with their shortcuts as the finest reconstruction units. After reconstructing these two fine-grained units, we combine them to form coarser blocks and reconstruct them at a coarser granularity level. We iteratively perform this combination and reconstruction process, achieving progressive fine-to-coarse reconstruction. Additionally, we introduce a Progressive Optimization Strategy (POS) for PFCR to alleviate the difficulty of training, thereby further enhancing model performance. Experimental results on the ImageNet dataset demonstrate that our proposed method achieves the best Top-1 accuracy among state-of-the-art methods, particularly attaining 75.61% for 3-bit quantized ViT-B in PTQ. Besides, quantization results on the COCO dataset reveal the effectiveness and generalization of our proposed method on other computer vision tasks like object detection and instance segmentation.
- Abstract(参考訳): その効率のため、PTQ(Post-Training Quantization)はビジョントランスフォーマー(ViT)の圧縮に広く採用されている。
しかしながら、低ビット表現に量子化されると、フル精度の表現に比べて性能が大幅に低下することが多い。
この問題に対処するため、低ビット量子化設定の性能向上のため、PTQフレームワークに再構成手法が組み込まれている。
しかしながら、既存の関連手法では、復元粒度を事前に定義し、異なる再構成粒度間の進行的な関係を探索することはめったになく、ViTの準最適量子化結果をもたらす。
そこで本稿では,PFCR(Progressive Fine-to-Coarse Restruction)法を提案する。
具体的には,マルチヘッド自己保持モジュールと多層パーセプトロンモジュールと,そのショートカットを最良再構成ユニットとして定義する。
これら2つのきめ細かいユニットを再構築した後、それらを結合して粗いブロックを形成し、粗い粒度レベルで再構築する。
我々は、この組み合わせと再構築を反復的に行い、段階的に細粒度を再構築する。
さらに、PFCRのプログレッシブ最適化戦略(POS)を導入し、トレーニングの難しさを軽減し、モデル性能をさらに向上する。
ImageNetデータセットを用いた実験結果から,提案手法は最先端手法の中で最高のTop-1精度を達成し,特にPTQにおける3ビット量子化VT-Bにおいて75.61%を達成した。
さらに,COCOデータセットの量子化結果から,オブジェクト検出やインスタンス分割などのコンピュータビジョンタスクにおいて,提案手法の有効性と一般化が示された。
関連論文リスト
- EchoIR: Advancing Image Restoration with Echo Upsampling and Bi-Level Optimization [0.0]
本稿では,このギャップを埋めるために,二つの学習可能なアップサンプリング機構を備えたUNetライクなイメージ復元ネットワークであるEchoIRを紹介する。
画像復元とアップサンプリングタスクの階層モデルの構築にあたり、近似二段階最適化(AS-BLO)を提案する。
論文 参考訳(メタデータ) (2024-12-10T06:27:08Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - DGTR: Distributed Gaussian Turbo-Reconstruction for Sparse-View Vast Scenes [81.56206845824572]
新規ビュー合成(NVS)アプローチは、広大なシーン再構築において重要な役割を担っている。
大規模な環境下では、復元の質が悪くなる場合が少なくない。
本稿では,スパース・ビュー・ワイド・シーンのための効率的なガウス再構成のための分散フレームワークであるDGTRを提案する。
論文 参考訳(メタデータ) (2024-11-19T07:51:44Z) - MGRQ: Post-Training Quantization For Vision Transformer With Mixed Granularity Reconstruction [3.7024647541541014]
後学習量子化(PTQ)は視覚モデルを効率的に圧縮する。
ViT (Vision Transformer) の再構成によるPTQの性能向上への取り組みは, 有効性に限界があることが示されている。
この問題に対処するためのソリューションとして,MGRQ (Mixed Granularity Reconstruction Quantization) を提案する。
論文 参考訳(メタデータ) (2024-06-13T15:29:37Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Attentive Fine-Grained Structured Sparsity for Image Restoration [63.35887911506264]
N:M 構造化プルーニングは,モデルの精度制約を効率的にするための効果的かつ実用的なプルーニング手法の1つである。
そこで本稿では, 各層におけるN:M構造化空間の刈り取り比を決定する新しい刈り取り法を提案する。
論文 参考訳(メタデータ) (2022-04-26T12:44:55Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。