論文の概要: Lossy Image Compression with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.06950v5
- Date: Wed, 28 Jun 2023 22:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 17:03:22.072821
- Title: Lossy Image Compression with Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルによる損失画像圧縮
- Authors: Ruihan Yang, Stephan Mandt
- Abstract要約: 本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
我々のアプローチは、エントロピー符号化のために画像が潜在空間にマッピングされるトランスフォーメーションコーディングパラダイムに依存している。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
- 参考スコア(独自算出の注目度): 19.646064907162707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper outlines an end-to-end optimized lossy image compression framework
using diffusion generative models. The approach relies on the transform coding
paradigm, where an image is mapped into a latent space for entropy coding and,
from there, mapped back to the data space for reconstruction. In contrast to
VAE-based neural compression, where the (mean) decoder is a deterministic
neural network, our decoder is a conditional diffusion model. Our approach thus
introduces an additional "content" latent variable on which the reverse
diffusion process is conditioned and uses this variable to store information
about the image. The remaining "texture" variables characterizing the diffusion
process are synthesized at decoding time. We show that the model's performance
can be tuned toward perceptual metrics of interest. Our extensive experiments
involving multiple datasets and image quality assessment metrics show that our
approach yields stronger reported FID scores than the GAN-based model, while
also yielding competitive performance with VAE-based models in several
distortion metrics. Furthermore, training the diffusion with X-parameterization
enables high-quality reconstructions in only a handful of decoding steps,
greatly affecting the model's practicality.
- Abstract(参考訳): 本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
このアプローチは変換符号化パラダイムに依存しており、画像はエントロピー符号化のための潜在空間にマッピングされ、そこから再構成のためにデータ空間にマッピングされる。
平均)デコーダが決定論的ニューラルネットワークであるvaeベースのニューラルネットワークとは対照的に、このデコーダは条件拡散モデルである。
そこで本手法では,逆拡散過程を条件付けした"コンテンツ"潜在変数を導入し,この変数を用いて画像に関する情報を格納する。
拡散過程を特徴付ける残りの「テクスチャ」変数は復号時に合成される。
モデルの性能は,関心の認知的指標に調整可能であることを示す。
複数のデータセットと画像品質評価指標を含む広範囲な実験により,提案手法はGANモデルよりも強いFIDスコアを得られる一方で,VAEモデルと競合する性能を複数の歪み指標で得ることが示された。
さらに、Xパラメータ化による拡散の訓練により、少数の復号化ステップで高品質な再構成が可能となり、モデルの実用性に大きな影響を及ぼす。
関連論文リスト
- Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
当社のアプローチでは,完全な拡散生成プロセスの10%未満の実行が可能であり,拡散モデルにアーキテクチャ的な変更は不要である。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。
自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。
本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文 参考訳(メタデータ) (2022-08-27T17:15:38Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。