論文の概要: Customizable ROI-Based Deep Image Compression
- arxiv url: http://arxiv.org/abs/2507.00373v2
- Date: Wed, 02 Jul 2025 02:38:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.162342
- Title: Customizable ROI-Based Deep Image Compression
- Title(参考訳): カスタマイズ可能なROIベースのディープイメージ圧縮
- Authors: Jian Jin, Fanxin Xia, Feng Ding, Xinfeng Zhang, Meiqin Liu, Yao Zhao, Weisi Lin, Lili Meng,
- Abstract要約: 関心領域(ROI)に基づく画像圧縮は、高品質な再構成のためにROIを優先順位付けすることでビット割り当てを優先する。
既存のROIベースの画像圧縮スキームはROIを事前に定義しており、変更できない。
本研究は、ROIベースのディープイメージ圧縮をカスタマイズするためのパラダイムを提案する。
- 参考スコア(独自算出の注目度): 69.93869435045916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Region of Interest (ROI)-based image compression optimizes bit allocation by prioritizing ROI for higher-quality reconstruction. However, as the users (including human clients and downstream machine tasks) become more diverse, ROI-based image compression needs to be customizable to support various preferences. For example, different users may define distinct ROI or require different quality trade-offs between ROI and non-ROI. Existing ROI-based image compression schemes predefine the ROI, making it unchangeable, and lack effective mechanisms to balance reconstruction quality between ROI and non-ROI. This work proposes a paradigm for customizable ROI-based deep image compression. First, we develop a Text-controlled Mask Acquisition (TMA) module, which allows users to easily customize their ROI for compression by just inputting the corresponding semantic \emph{text}. It makes the encoder controlled by text. Second, we design a Customizable Value Assign (CVA) mechanism, which masks the non-ROI with a changeable extent decided by users instead of a constant one to manage the reconstruction quality trade-off between ROI and non-ROI. Finally, we present a Latent Mask Attention (LMA) module, where the latent spatial prior of the mask and the latent Rate-Distortion Optimization (RDO) prior of the image are extracted and fused in the latent space, and further used to optimize the latent representation of the source image. Experimental results demonstrate that our proposed customizable ROI-based deep image compression paradigm effectively addresses the needs of customization for ROI definition and mask acquisition as well as the reconstruction quality trade-off management between the ROI and non-ROI.
- Abstract(参考訳): Region of Interest (ROI)ベースの画像圧縮は、高品質な再構成のためにROIを優先順位付けすることでビット割り当てを最適化する。
しかしながら、ユーザ(ヒューマンクライアントやダウンストリームマシンタスクを含む)が多様化するにつれて、さまざまな好みをサポートするためにROIベースの画像圧縮をカスタマイズする必要がある。
例えば、異なるユーザは異なるROIを定義したり、ROIと非ROIの間に異なる品質のトレードオフを必要とするかもしれません。
既存のROIベースの画像圧縮スキームはROIを事前に定義しており、変更不可能であり、ROIと非ROIの再構成品質をバランスさせる効果的なメカニズムが欠如している。
本研究は、ROIベースのディープイメージ圧縮をカスタマイズするためのパラダイムを提案する。
まず、テキスト制御されたマスク獲得(TMA)モジュールを開発し、対応するセマンティックな \emph{text} を入力するだけで、ユーザが圧縮のためにROIを簡単にカスタマイズできる。
エンコーダはテキストによって制御される。
第2に、ROIと非ROIの整合性トレードオフを管理するために、一定値ではなく、ユーザが決定する変更可能な範囲で非ROIを隠蔽するカスタマイズ可能な値アサイン(CVA)機構を設計する。
最後に、マスクの潜時空間先行と画像前の潜時速度歪み最適化(RDO)を抽出し、潜時空間で融合する潜時マスク注意(LMA)モジュールを提示し、さらにソース画像の潜時表現を最適化するために使用する。
実験の結果,提案したカスタマイズ可能なROIベース深層画像圧縮パラダイムは,ROI定義やマスク取得のカスタマイズや,ROIと非ROIのトレードオフ管理の再構築の必要性に効果的に対処できることが示唆された。
関連論文リスト
- UniRestore: Unified Perceptual and Task-Oriented Image Restoration Model Using Diffusion Prior [56.35236964617809]
画像復元は、悪天候、ぼやけ、騒音などの様々な要因によって劣化した入力からコンテンツを回復することを目的としている。
本稿では,PIRとTIRのギャップを埋める統一画像復元モデルUniRestoreを紹介する。
本稿では,分解エンコーダの特徴を再構築するための補足的特徴回復モジュール (CFRM) と,デコーダの適応的特徴融合を容易にするタスク特徴適応モジュール (TFA) を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:06:48Z) - ROI-Aware Multiscale Cross-Attention Vision Transformer for Pest Image
Identification [1.9580473532948401]
我々は、新しいROI対応マルチスケール・クロスアテンション・ビジョン・トランス (ROI-ViT) を提案する。
提案したROI-ViTは、PestとROIブランチと呼ばれる2つのブランチを使って設計されている。
実験の結果、提案されたROI-ViTはそれぞれIP102、D0、SauTegの害虫データセットに対して81.81%、99.64%、84.66%を達成した。
論文 参考訳(メタデータ) (2023-12-28T09:16:27Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - ROI-based Deep Image Compression with Swin Transformers [14.044999439481511]
バックグラウンドよりも高品質な関心の領域(ROI)には、ビデオ会議システムを含む多くのアプリケーションがあります。
自動エンコーダネットワークの主ビルディングブロックとして,Swinトランスフォーマーを用いたROIベースの画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-12T22:05:44Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Region-of-Interest Based Neural Video Compression [19.81699221664852]
ROIに基づくニューラルビデオ符号化のための2つのモデルを導入する。
まず,2値のROIマスクで入力される暗黙のモデルを提案し,背景の歪みを非強調にすることで学習する。
我々は、ROIにおけるR-D(Ryse-Distortion)のパフォーマンスにおいて、私たちのメソッドがすべてのベースラインを上回っていることを示します。
論文 参考訳(メタデータ) (2022-03-03T19:37:52Z) - MOGAN: Morphologic-structure-aware Generative Learning from a Single
Image [59.59698650663925]
近年,1つの画像のみに基づく生成モデルによる完全学習が提案されている。
多様な外観のランダムなサンプルを生成するMOGANというMOrphologic-structure-aware Generative Adversarial Networkを紹介します。
合理的な構造の維持や外観の変化など、内部機能に重点を置いています。
論文 参考訳(メタデータ) (2021-03-04T12:45:23Z) - Rank-One Network: An Effective Framework for Image Restoration [18.55701190218365]
本稿では,RO分解とRO再構成という2つのモジュールからなる新しいフレームワークを提案する。
RO分解は、劣化した画像をRO成分に分解して残留する。
RO再構成は、RO成分と残留成分からそれぞれ重要な情報を再構成し、この再構成情報からイメージを復元することを目的としている。
論文 参考訳(メタデータ) (2020-11-25T09:39:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。