論文の概要: Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective
- arxiv url: http://arxiv.org/abs/2503.00399v3
- Date: Sat, 12 Apr 2025 11:05:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:45:16.754774
- Title: Extremely low-bitrate Image Compression Semantically Disentangled by LMMs from a Human Perception Perspective
- Title(参考訳): 人間の知覚から見たLMMによる極低ビットレート画像圧縮
- Authors: Juan Song, Lijie Yang, Mingtao Feng,
- Abstract要約: 人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮フレームワークを提案する。
我々はLMMを利用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
- 参考スコア(独自算出の注目度): 2.542077227403488
- License:
- Abstract: It remains a significant challenge to compress images at extremely low bitrate while achieving both semantic consistency and high perceptual quality. Inspired by human progressive perception mechanism, we propose a Semantically Disentangled Image Compression framework (SEDIC) in this paper. Initially, an extremely compressed reference image is obtained through a learned image encoder. Then we leverage LMMs to extract essential semantic components, including overall descriptions, object detailed description, and semantic segmentation masks. We propose a training-free Object Restoration model with Attention Guidance (ORAG) built on pre-trained ControlNet to restore object details conditioned by object-level text descriptions and semantic masks. Based on the proposed ORAG, we design a multistage semantic image decoder to progressively restore the details object by object, starting from the extremely compressed reference image, ultimately generating high-quality and high-fidelity reconstructions. Experimental results demonstrate that SEDIC significantly outperforms state-of-the-art approaches, achieving superior perceptual quality and semantic consistency at extremely low-bitrates ($\le$ 0.05 bpp).
- Abstract(参考訳): セマンティック一貫性と高い知覚品質を両立させながら、非常に低ビットレートで画像を圧縮することは依然として重要な課題である。
本稿では,人間のプログレッシブ・コンプレッション・メカニズムにインスパイアされたセマンティック・ディスタングル・イメージ・圧縮・フレームワーク(SEDIC)を提案する。
まず、学習した画像エンコーダを用いて、非常に圧縮された参照画像を得る。
次に、LMMを活用して、全体記述、オブジェクト詳細記述、セマンティックセグメンテーションマスクを含む重要なセマンティックコンポーネントを抽出する。
本研究では,事前学習したControlNet上に構築され,オブジェクトレベルのテキスト記述やセマンティックマスクによって条件付けられたオブジェクトの詳細を復元する,注意誘導型オブジェクト復元モデルを提案する。
提案するORAGに基づく多段階意味画像デコーダを設計し,高度に圧縮された参照画像からオブジェクトによって詳細オブジェクトを段階的に復元し,最終的に高品質かつ高忠実な再構成を生成する。
実験の結果、SEDICは最先端のアプローチよりも優れており、極低ビットレート(0.05bpp)で知覚品質とセマンティック一貫性に優れていた($0.05bpp)。
関連論文リスト
- SQ-GAN: Semantic Image Communications Using Masked Vector Quantization [55.02795214161371]
本研究ではセマンティック・マスケッドVQ-GAN(SQ-GAN)を導入し,セマンティック・タスク指向通信のための画像圧縮を最適化する手法を提案する。
SQ-GANは、セマンティックセマンティックセグメンテーションと新しいセマンティック条件適応マスクモジュール(SAMM)を使用して、画像のセマンティックな重要な特徴を選択的にエンコードする。
論文 参考訳(メタデータ) (2025-02-13T17:35:57Z) - Semantics Prompting Data-Free Quantization for Low-Bit Vision Transformers [59.772673692679085]
セマンティックスプロンプトデータ自由量子化手法であるSPDFQを提案する。
まず、SPDFQはAPA(Attention Priors Alignment)を組み込んでいる。
第二に、SPDFQはマルチセマンティック強化(Multi-Semantic Reinforcement、MSR)を導入している。
論文 参考訳(メタデータ) (2024-12-21T09:30:45Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。