Fugu-MT 論文翻訳(概要): Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior

論文の概要: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior

arxiv url: http://arxiv.org/abs/2404.18820v1
Date: Mon, 29 Apr 2024 16:02:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 13:08:44.469935
Title: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
Title（参考訳）: 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて
Authors: Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang,
Abstract要約: 既存の極端な画像圧縮法は、通常、重い圧縮アーティファクトや低忠実度再構成に悩まされる。本稿では,VAEと事前学習したテキスト-画像拡散モデルを組み合わせた,新たな極端な画像圧縮フレームワークを提案する。本手法は,視覚性能と画像の忠実度の両方を極端に低速で比較し,最先端の手法より優れる。
参考スコア（独自算出の注目度）: 8.772652777234315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Compressing images at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. Existing extreme image compression methods generally suffer from heavy compression artifacts or low-fidelity reconstructions. To address this problem, we propose a novel extreme image compression framework that combines compressive VAEs and pre-trained text-to-image diffusion models in an end-to-end manner. Specifically, we introduce a latent feature-guided compression module based on compressive VAEs. This module compresses images and initially decodes the compressed information into content variables. To enhance the alignment between content variables and the diffusion space, we introduce external guidance to modulate intermediate feature maps. Subsequently, we develop a conditional diffusion decoding module that leverages pre-trained diffusion models to further decode these content variables. To preserve the generative capability of pre-trained diffusion models, we keep their parameters fixed and use a control module to inject content information. We also design a space alignment loss to provide sufficient constraints for the latent feature-guided compression module. Extensive experiments demonstrate that our method outperforms state-of-the-art approaches in terms of both visual performance and image fidelity at extremely low bitrates.
Abstract（参考訳）: 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))で画像を圧縮することは、かなりの情報損失のため重要な課題である。既存の極端な画像圧縮法は、通常、重い圧縮アーティファクトや低忠実度再構成に悩まされる。そこで本研究では,圧縮型VAEと事前学習したテキスト・ツー・イメージ拡散モデルをエンドツーエンドで組み合わせた,新たな極端な画像圧縮フレームワークを提案する。具体的には,圧縮VAEに基づく遅延特徴誘導圧縮モジュールを提案する。このモジュールは画像を圧縮し、最初に圧縮された情報をコンテンツ変数にデコードする。コンテンツ変数と拡散空間のアライメントを高めるために,中間特徴写像を変調するための外部ガイダンスを導入する。その後、事前学習した拡散モデルを利用して、これらのコンテンツ変数をさらにデコードする条件付き拡散復号モジュールを開発した。事前学習した拡散モデルの生成能力を維持するため、パラメータを固定し、制御モジュールを使用してコンテンツ情報を注入する。また、遅延特徴誘導圧縮モジュールに十分な制約を与えるために、空間アライメント損失を設計する。超低ビットレートでの視覚的性能と画像忠実度の両方の観点から,本手法が最先端の手法より優れていることを示す。

関連論文リスト

Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。遺伝子前駆体への過度な依存から生じる忠実性を改善する。既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文参考訳（メタデータ） (2025-08-07T02:24:03Z)
DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-19T19:53:27Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-03T14:29:54Z)
Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。 PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。 PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-07-13T14:24:22Z)
HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文参考訳（メタデータ） (2024-04-20T13:19:08Z)
Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-07T10:57:54Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。 licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文参考訳（メタデータ） (2023-06-27T15:36:22Z)
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文参考訳（メタデータ） (2022-11-14T22:54:19Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。 Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-08T17:32:10Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。