論文の概要: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
- arxiv url: http://arxiv.org/abs/2404.18820v4
- Date: Wed, 4 Sep 2024 03:35:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:12:50.076923
- Title: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
- Title(参考訳): 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて
- Authors: Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang,
- Abstract要約: 本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 8.772652777234315
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image compression at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. In this work, we propose a novel two-stage extreme image compression framework that exploits the powerful generative capability of pre-trained diffusion models to achieve realistic image reconstruction at extremely low bitrates. In the first stage, we treat the latent representation of images in the diffusion space as guidance, employing a VAE-based compression approach to compress images and initially decode the compressed information into content variables. The second stage leverages pre-trained stable diffusion to reconstruct images under the guidance of content variables. Specifically, we introduce a small control module to inject content information while keeping the stable diffusion model fixed to maintain its generative capability. Furthermore, we design a space alignment loss to force the content variables to align with the diffusion space and provide the necessary constraints for optimization. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches in terms of visual performance at extremely low bitrates. The source code and trained models are available at https://github.com/huai-chang/DiffEIC.
- Abstract(参考訳): 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))での画像圧縮は、かなりの情報損失のため重要な課題である。
本研究では,事前学習した拡散モデルの強力な生成能力を利用して,極低ビットレートで現実的な画像再構成を実現する2段階の極端画像圧縮フレームワークを提案する。
第一段階では、拡散空間における画像の潜在表現をガイダンスとして扱い、VAEベースの圧縮手法を用いて画像を圧縮し、最初に圧縮された情報をコンテンツ変数に復号する。
第2段階は、事前訓練された安定拡散を利用して、コンテンツ変数のガイダンスの下で画像を再構成する。
具体的には、コンテンツ情報を注入する小さな制御モジュールを導入し、安定した拡散モデルを固定し、生成能力を維持する。
さらに、コンテンツ変数を拡散空間に合わせるように強制する空間アライメント損失を設計し、最適化に必要な制約を提供する。
広汎な実験により,本手法は極低ビットレートでの視覚性能において,最先端の手法よりも有意に優れていた。
ソースコードとトレーニングされたモデルはhttps://github.com/huai-chang/DiffEICで公開されている。
関連論文リスト
- Compression-Aware One-Step Diffusion Model for JPEG Artifact Removal [56.307484956135355]
CODiffはJPEGアーティファクト削除のための圧縮対応ワンステップ拡散モデルである。
明示的な学習と暗黙的な学習を組み合わせた二重学習戦略を提案する。
その結果,CODiffは定量的および視覚的品質指標の両方において,最近の先行手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T02:46:27Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文 参考訳(メタデータ) (2022-11-14T22:54:19Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。