論文の概要: PTQ4RIS: Post-Training Quantization for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2409.17020v2
- Date: Tue, 18 Feb 2025 14:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:02:03.714015
- Title: PTQ4RIS: Post-Training Quantization for Referring Image Segmentation
- Title(参考訳): PTQ4RIS:画像セグメント参照後の量子化
- Authors: Xiaoyan Jiang, Hang Yang, Kaiying Zhu, Xihe Qiu, Shibo Zhao, Sifan Zhou,
- Abstract要約: Referring Image (RIS) は、視覚情報と言語情報の両方を理解することによって、ある文によって参照されるオブジェクトを画像に分割することを目的としている。
既存のRIS手法は、リソース制限エッジデバイスにおける実用上の考慮を無視して、トップパフォーマンスモデルを探索する傾向にある。
PTQ4RISと呼ばれる学習後量子化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.25534118359173
- License:
- Abstract: Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code and video are available at {https://github.com/gugu511yy/PTQ4RIS}.
- Abstract(参考訳): Referring Image Segmentation (RIS) は、視覚情報と言語情報の両方を理解することによって、ある文によって参照される対象を画像に区分することを目的としている。
しかし、既存のRIS法は、リソース制限エッジデバイスにおける実用的応用を考慮せず、トップパフォーマンスモデルを探索する傾向にある。
この監視は、デバイス上のRIS推論に重大な課題をもたらす。
そこで本研究では,PTQ4RISと呼ばれる学習後量子化フレームワークを提案する。
具体的には、RISモデル量子化における性能劣化の原因の根本原因を詳細に分析し、視覚およびテキストエンコーダにおける量子化の難しさに対処するために、二重領域量子化(DRQ)とリオーダーベースのアウトリア保持量子化(RORQ)を提案する。
異なるビット設定(8ビットから4ビット)の3つのベンチマークに対する大規模な実験は、その優れたパフォーマンスを示している。
重要なことは、RISタスク用に特別に設計された最初のPTQ手法であり、RISアプリケーションにおけるPTQの実現可能性を強調している。
コードとビデオは、https://github.com/gugu511yy/PTQ4RIS}で公開されている。
関連論文リスト
- XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。
我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。
標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文 参考訳(メタデータ) (2024-12-02T17:58:06Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - RefQSR: Reference-based Quantization for Image Super-Resolution Networks [14.428652358882978]
単一画像超解像はその低分解能観測から高分解能画像を再構成することを目的としている。
深層学習に基づくSISRモデルは計算コストの増大を犠牲にして高い性能を示す。
本稿では,複数の代表パッチに高ビット量子化を適用したRefQSRという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-02T06:49:38Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - RepQ-ViT: Scale Reparameterization for Post-Training Quantization of
Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。
RepQ-ViTは量子化と推論プロセスを分離する。
既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文 参考訳(メタデータ) (2022-12-16T02:52:37Z) - Visual Radial Basis Q-Network [0.2148535041822524]
トレーニング可能なパラメータの少ない原画像からスパース特徴を抽出する汎用手法を提案する。
提案手法は、概念的に単純でありながら、トレーニング可能なパラメータが少ない場合もあれば、より優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-06-14T09:34:34Z) - Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。
4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。
本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文 参考訳(メタデータ) (2021-11-10T17:49:29Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Adversarial Attack on Deep Product Quantization Network for Image
Retrieval [74.85736968193879]
近年,高速画像検索においてDPQN (Deep Product Quantization Network) が注目されている。
近年の研究では、ディープニューラルネットワーク(DNN)は、小さく、悪意のある設計の摂動によって入力に弱いことが示されている。
本稿では,製品量子化に基づく検索システムに対して,製品量子化逆生成(PQ-AG)を提案する。
論文 参考訳(メタデータ) (2020-02-26T09:25:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。