論文の概要: PICD: Versatile Perceptual Image Compression with Diffusion Rendering
- arxiv url: http://arxiv.org/abs/2505.05853v1
- Date: Fri, 09 May 2025 07:45:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.193263
- Title: PICD: Versatile Perceptual Image Compression with Diffusion Rendering
- Title(参考訳): PICD:拡散レンダリングによるVersatile Perceptual Image Compression
- Authors: Tongda Xu, Jiahao Li, Bin Li, Yan Wang, Ya-Qin Zhang, Yan Lu,
- Abstract要約: 拡散レンダリング(PICD)による知覚的スクリーン画像圧縮
本稿では,テキストと画像を別々に符号化する圧縮フレームワークを提案し,拡散モデルを用いて1つの画像にレンダリングする。
我々のPICDは、テキストの精度と知覚品質の両面で、既存の知覚レンダリングを上回っている。
- 参考スコア(独自算出の注目度): 29.816328261398862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, perceptual image compression has achieved significant advancements, delivering high visual quality at low bitrates for natural images. However, for screen content, existing methods often produce noticeable artifacts when compressing text. To tackle this challenge, we propose versatile perceptual screen image compression with diffusion rendering (PICD), a codec that works well for both screen and natural images. More specifically, we propose a compression framework that encodes the text and image separately, and renders them into one image using diffusion model. For this diffusion rendering, we integrate conditional information into diffusion models at three distinct levels: 1). Domain level: We fine-tune the base diffusion model using text content prompts with screen content. 2). Adaptor level: We develop an efficient adaptor to control the diffusion model using compressed image and text as input. 3). Instance level: We apply instance-wise guidance to further enhance the decoding process. Empirically, our PICD surpasses existing perceptual codecs in terms of both text accuracy and perceptual quality. Additionally, without text conditions, our approach serves effectively as a perceptual codec for natural images.
- Abstract(参考訳): 近年、知覚的画像圧縮は顕著な進歩を遂げ、自然画像の低ビットレートで高画質を実現している。
しかし、画面コンテンツの場合、既存のメソッドはテキストを圧縮する際に顕著なアーティファクトを生成することが多い。
この課題に対処するために,拡散レンダリング(PICD)を用いた多種多様な画面画像圧縮を提案する。
具体的には、テキストと画像を別々にエンコードする圧縮フレームワークを提案し、拡散モデルを用いて1つの画像にレンダリングする。
この拡散レンダリングのために、条件情報を3つの異なるレベルの拡散モデルに統合する。
ドメインレベル: テキストコンテンツプロンプトとスクリーンコンテンツを使ってベース拡散モデルを微調整する。
2)。
適応レベル: 圧縮画像とテキストを入力として拡散モデルを制御するための効率的な適応器を開発する。
3)。
インスタンスレベル:デコードプロセスをさらに強化するために、インスタンスワイズガイダンスを適用します。
我々のPICDは、テキストの精度と知覚品質の両方の観点から、既存の知覚コーデックを上回ります。
また,テキスト条件がなければ,自然画像の知覚コーデックとして効果的に機能する。
関連論文リスト
- Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior [8.772652777234315]
本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-29T16:02:38Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。