Fugu-MT 論文翻訳(概要): Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior

論文の概要: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior

arxiv url: http://arxiv.org/abs/2404.18820v3
Date: Sun, 28 Jul 2024 05:34:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 23:18:12.361027
Title: Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior
Title（参考訳）: 遅延特徴誘導と拡散を先行した極端画像圧縮に向けて
Authors: Zhiyuan Li, Yanhui Zhou, Hao Wei, Chenyang Ge, Jingwen Jiang,
Abstract要約: 本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 8.772652777234315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image compression at extremely low bitrates (below 0.1 bits per pixel (bpp)) is a significant challenge due to substantial information loss. In this work, we propose a novel two-stage extreme image compression framework that exploits the powerful generative capability of pre-trained diffusion models to achieve realistic image reconstruction at extremely low bitrates. In the first stage, we treat the latent representation of images in the diffusion space as guidance, employing a VAE-based compression approach to compress images and initially decode the compressed information into content variables. The second stage leverages pre-trained stable diffusion to reconstruct images under the guidance of content variables. Specifically, we introduce a small control module to inject content information while keeping the stable diffusion model fixed to maintain its generative capability. Furthermore, we design a space alignment loss to force the content variables to align with the diffusion space and provide the necessary constraints for optimization. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art approaches in terms of visual performance at extremely low bitrates.
Abstract（参考訳）: 非常に低いビットレート(ピクセル当たり0.1ビット以下(bpp))での画像圧縮は、かなりの情報損失のため重要な課題である。本研究では,事前学習した拡散モデルの強力な生成能力を利用して,極低ビットレートで現実的な画像再構成を実現する2段階の極端画像圧縮フレームワークを提案する。第一段階では、拡散空間における画像の潜在表現をガイダンスとして扱い、VAEベースの圧縮手法を用いて画像を圧縮し、最初に圧縮された情報をコンテンツ変数に復号する。第2段階は、事前訓練された安定拡散を利用して、コンテンツ変数のガイダンスの下で画像を再構成する。具体的には、コンテンツ情報を注入する小さな制御モジュールを導入し、安定した拡散モデルを固定し、生成能力を維持する。さらに、コンテンツ変数を拡散空間に合わせるように強制する空間アライメント損失を設計し、最適化に必要な制約を提供する。広汎な実験により,本手法は極低ビットレートでの視覚性能において,最先端の手法よりも有意に優れていた。

関連論文リスト

One-Step Diffusion for Perceptual Image Compression [5.566830428533433]
拡散に基づく画像圧縮法は, 高い知覚品質を低速で実現し, 顕著な進歩を遂げた。しかし、彼らの実践的なデプロイメントは、大きな推論遅延と重い計算オーバーヘッドによって妨げられている。本稿では,単段階拡散プロセスのみを必要とする拡散に基づく画像圧縮手法を提案し,推論速度を大幅に向上させる。
論文参考訳（メタデータ） (2026-02-02T03:04:08Z)
SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。 SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文参考訳（メタデータ） (2025-08-10T13:48:07Z)
Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。遺伝子前駆体への過度な依存から生じる忠実性を改善する。既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文参考訳（メタデータ） (2025-08-07T02:24:03Z)
DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-19T19:53:27Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2024-09-03T14:29:54Z)
Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。 PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。 PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-07-13T14:24:22Z)
HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文参考訳（メタデータ） (2024-04-20T13:19:08Z)
Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文参考訳（メタデータ） (2024-04-07T10:57:54Z)
Progressive Learning with Visual Prompt Tuning for Variable-Rate Image Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文参考訳（メタデータ） (2023-11-23T08:29:32Z)
You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。 licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文参考訳（メタデータ） (2023-06-27T15:36:22Z)
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models [13.894251782142584]
本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
論文参考訳（メタデータ） (2022-11-14T22:54:19Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。 Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文参考訳（メタデータ） (2021-08-08T17:32:10Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。