Fugu-MT 論文翻訳(概要): PTQ4RIS: Post-Training Quantization for Referring Image Segmentation

論文の概要: PTQ4RIS: Post-Training Quantization for Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2409.17020v1
Date: Wed, 25 Sep 2024 15:23:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-27 03:15:16.404643
Title: PTQ4RIS: Post-Training Quantization for Referring Image Segmentation
Title（参考訳）: PTQ4RIS:画像セグメント参照後の量子化
Authors: Xiaoyan Jiang, Hang Yang, Kaiying Zhu, Xihe Qiu, Shibo Zhao, Sifan Zhou,
Abstract要約: Referring Image (RIS) は、視覚情報と言語情報の両方を理解することによって、ある文によって参照されるオブジェクトを画像に分割することを目的としている。既存のRIS手法は、リソース制限エッジデバイスにおける実用上の考慮を無視して、トップパフォーマンスモデルを探索する傾向にある。 PTQ4RISと呼ばれる学習後量子化フレームワークを提案する。
参考スコア（独自算出の注目度）: 6.25534118359173
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Referring Image Segmentation (RIS), aims to segment the object referred by a given sentence in an image by understanding both visual and linguistic information. However, existing RIS methods tend to explore top-performance models, disregarding considerations for practical applications on resources-limited edge devices. This oversight poses a significant challenge for on-device RIS inference. To this end, we propose an effective and efficient post-training quantization framework termed PTQ4RIS. Specifically, we first conduct an in-depth analysis of the root causes of performance degradation in RIS model quantization and propose dual-region quantization (DRQ) and reorder-based outlier-retained quantization (RORQ) to address the quantization difficulties in visual and text encoders. Extensive experiments on three benchmarks with different bits settings (from 8 to 4 bits) demonstrates its superior performance. Importantly, we are the first PTQ method specifically designed for the RIS task, highlighting the feasibility of PTQ in RIS applications. Code will be available at {https://github.com/gugu511yy/PTQ4RIS}.
Abstract（参考訳）: Referring Image Segmentation (RIS) は、視覚情報と言語情報の両方を理解することによって、ある文によって参照される対象を画像に区分することを目的としている。しかし、既存のRIS法は、リソース制限エッジデバイスにおける実用的応用を考慮せず、トップパフォーマンスモデルを探索する傾向にある。この監視は、デバイス上のRIS推論に重大な課題をもたらす。そこで本研究では,PTQ4RISと呼ばれる学習後量子化フレームワークを提案する。具体的には、RISモデル量子化における性能劣化の原因の根本原因を詳細に分析し、視覚およびテキストエンコーダにおける量子化の難しさに対処するために、二重領域量子化(DRQ)とリオーダーベースのアウトリア保持量子化(RORQ)を提案する。異なるビット設定(8ビットから4ビット)の3つのベンチマークに対する大規模な実験は、その優れたパフォーマンスを示している。重要なことは、RISタスク用に特別に設計された最初のPTQ手法であり、RISアプリケーションにおけるPTQの実現可能性を強調している。コードはhttps://github.com/gugu511yy/PTQ4RIS}で入手できる。

関連論文リスト

Pixel-Grounded Retrieval for Knowledgeable Large Multimodal Models [58.46663983451155]
PixSearchは、地域レベルの認識と検索強化推論を統合する、エンドツーエンドのLMM(Large Multimodal Model)である。エンコーディング中、PixSearchは検索をトリガーする検索>トークンを出力し、クエリのモダリティ(テキスト、画像、リージョン)を選択し、ビジュアルクエリとして直接機能するピクセルレベルのマスクを生成する。エゴセントリックでエンティティ中心のVQAベンチマークでは、PixSearchは事実整合性と一般化を大幅に改善する。
論文参考訳（メタデータ） (2026-01-27T00:46:08Z)
BasicAVSR: Arbitrary-Scale Video Super-Resolution via Image Priors and Enhanced Motion Compensation [70.27358326228399]
任意スケールビデオ超解像(AVSR)のためのベーシックAVSRを提案する。 AVSRは、ビデオフレームの解像度、潜在的に様々なスケーリング要素を強化することを目的としている。超高分解能, 一般化能力, 推論速度の点で, BasicAVSR は既存手法よりも優れていた。
論文参考訳（メタデータ） (2025-10-30T05:08:45Z)
Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。 VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文参考訳（メタデータ） (2025-09-23T16:22:27Z)
DeRIS: Decoupling Perception and Cognition for Enhanced Referring Image Segmentation through Loopback Synergy [15.729826041347144]
RISを認知と認知という2つの重要な構成要素に分解する新しいフレームワークであるDeRISを提案する。以上の結果から,従来のモデルでは知覚障害ではなく,マルチモーダル認知能力が不十分であることが示唆された。本稿では,ターゲット存在判定に関連する長期分布問題に対処するため,単純な非参照型サンプル変換データ拡張を提案する。
論文参考訳（メタデータ） (2025-07-02T14:14:35Z)
FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文参考訳（メタデータ） (2025-06-13T07:57:38Z)
APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文参考訳（メタデータ） (2025-04-03T11:48:56Z)
XQ-GAN: An Open-source Image Tokenization Framework for Autoregressive Generation [54.2574228021317]
XQ-GANは画像再構成と生成の両方のために設計された画像トークン化フレームワークである。我々のフレームワークは、ベクトル量子化(VQ)、残留量子化(RQ)、マルチスケール残留量子化(MSVQ)、製品量子化(PQ)、バイナリ球面量子化(BSQ)など、最先端の量子化技術を統合する。標準の ImageNet 256x256 ベンチマークでは,本モデルが MAGVIT-v2 (0.9 rFID) と VAR (0.9 rFID) を大幅に上回り,0.64 の rFID を達成した。
論文参考訳（メタデータ） (2024-12-02T17:58:06Z)
PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [87.89013794655207]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文参考訳（メタデータ） (2024-11-26T04:49:42Z)
P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文参考訳（メタデータ） (2024-09-26T08:31:27Z)
RefQSR: Reference-based Quantization for Image Super-Resolution Networks [14.428652358882978]
単一画像超解像はその低分解能観測から高分解能画像を再構成することを目的としている。深層学習に基づくSISRモデルは計算コストの増大を犠牲にして高い性能を示す。本稿では,複数の代表パッチに高ビット量子化を適用したRefQSRという新しい手法を提案する。
論文参考訳（メタデータ） (2024-04-02T06:49:38Z)
Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
Inverse Quantum Fourier Transform Inspired Algorithm for Unsupervised Image Segmentation [2.4271601178529063]
IQFTの基本的な数学的構造を利用して,新しいIQFTインスパイアされたアルゴリズムを提案し,実装した。提案手法は,画像中の画素の位相情報を利用して,画素の強度をクビット相対位相に符号化し,IQFTを適用して画素を異なるセグメントに自動かつ効率的に分類する。提案手法は,PASCAL VOC 2012セグメンテーションベンチマークとxVIEW2チャレンジデータセットにおいて,平均的インターセクション・オーバー・ユニオン(mIOU)で最大50%性能を向上する。
論文参考訳（メタデータ） (2023-01-11T20:28:44Z)
RepQ-ViT: Scale Reparameterization for Post-Training Quantization of Vision Transformers [2.114921680609289]
視覚変換器のための新しいPTQフレームワークRepQ-ViTを提案する。 RepQ-ViTは量子化と推論プロセスを分離する。既存の強力なベースラインを上回り、ViTの4ビットPTQの精度を有効レベルまで向上させることができる。
論文参考訳（メタデータ） (2022-12-16T02:52:37Z)
Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文参考訳（メタデータ） (2022-07-09T13:35:12Z)
Visual Radial Basis Q-Network [0.2148535041822524]
トレーニング可能なパラメータの少ない原画像からスパース特徴を抽出する汎用手法を提案する。提案手法は、概念的に単純でありながら、トレーニング可能なパラメータが少ない場合もあれば、より優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2022-06-14T09:34:34Z)
Palette: Image-to-Image Diffusion Models [50.268441533631176]
我々は条件付き拡散モデルを用いた画像から画像への変換のためのシンプルで一般的なフレームワークであるPaletteを紹介する。 4つの困難な画像から画像への変換タスクにおいて、Paletteは強力なGANと回帰ベースラインを上回っている。本稿では、FID、インセプションスコア、事前訓練されたResNet-50の分類精度、参照画像に対する知覚距離などのサンプル品質スコアについて報告する。
論文参考訳（メタデータ） (2021-11-10T17:49:29Z)
Referring Transformer: A One-step Approach to Multi-task Visual Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文参考訳（メタデータ） (2021-06-06T10:53:39Z)
Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文参考訳（メタデータ） (2020-11-29T03:53:49Z)
Adversarial Attack on Deep Product Quantization Network for Image Retrieval [74.85736968193879]
近年,高速画像検索においてDPQN (Deep Product Quantization Network) が注目されている。近年の研究では、ディープニューラルネットワーク(DNN)は、小さく、悪意のある設計の摂動によって入力に弱いことが示されている。本稿では,製品量子化に基づく検索システムに対して,製品量子化逆生成(PQ-AG)を提案する。
論文参考訳（メタデータ） (2020-02-26T09:25:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。