論文の概要: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2404.18820v1
- Date: Mon, 29 Apr 2024 16:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:08:44.469935
- Title: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
- Title(参考訳): 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて
- Authors: Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang,
- Abstract要約: 既存の極端な画像圧縮法は、通常、重い圧縮アーティファクトや低忠実度再構成に悩まされる。
本稿では,VAEと事前学習したテキスト-画像拡散モデルを組み合わせた,新たな極端な画像圧縮フレームワークを提案する。
本手法は,視覚性能と画像の忠実度の両方を極端に低速で比較し,最先端の手法より優れる。
- 参考スコア(独自算出の注目度): 8.772652777234315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing images at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. Existing extreme image compression methods generally suffer from heavy compression artifacts or low-fidelity reconstructions. To address this problem, we propose a novel extreme image compression framework that combines compressive VAEs and pre-trained text-to-image diffusion models in an end-to-end manner. Specifically, we introduce a latent feature-guided compression module based on compressive VAEs. This module compresses images and initially decodes the compressed information into content variables. To enhance the alignment between content variables and the diffusion space, we introduce external guidance to modulate intermediate feature maps. Subsequently, we develop a conditional diffusion decoding module that leverages pre-trained diffusion models to further decode these content variables. To preserve the generative capability of pre-trained diffusion models, we keep their parameters fixed and use a control module to inject content information. We also design a space alignment loss to provide sufficient constraints for the latent feature-guided compression module. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches in terms of both visual performance and image fidelity at extremely low bitrates.
- Abstract(参考訳): 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))で画像を圧縮することは、かなりの情報損失のため重要な課題である。
既存の極端な画像圧縮法は、通常、重い圧縮アーティファクトや低忠実度再構成に悩まされる。
そこで本研究では,圧縮型VAEと事前学習したテキスト・ツー・イメージ拡散モデルをエンドツーエンドで組み合わせた,新たな極端な画像圧縮フレームワークを提案する。
具体的には,圧縮VAEに基づく遅延特徴誘導圧縮モジュールを提案する。
このモジュールは画像を圧縮し、最初に圧縮された情報をコンテンツ変数にデコードする。
コンテンツ変数と拡散空間のアライメントを高めるために,中間特徴写像を変調するための外部ガイダンスを導入する。
その後、事前学習した拡散モデルを利用して、これらのコンテンツ変数をさらにデコードする条件付き拡散復号モジュールを開発した。
事前学習した拡散モデルの生成能力を維持するため、パラメータを固定し、制御モジュールを使用してコンテンツ情報を注入する。
また、遅延特徴誘導圧縮モジュールに十分な制約を与えるために、空間アライメント損失を設計する。
超低ビットレートでの視覚的性能と画像忠実度の両方の観点から,本手法が最先端の手法より優れていることを示す。
関連論文リスト
- Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。
PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。
PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-07-13T14:24:22Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
このアプローチによって、完全な拡散生成プロセスの10%未満の実行が可能になり、バックボーンにアーキテクチャ的な変更は不要になります。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Transferable Learned Image Compression-Resistant Adversarial
Perturbations [69.79762292033553]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。