論文の概要: Lossy Image Compression with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.06950v1
- Date: Wed, 14 Sep 2022 21:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:02:05.428957
- Title: Lossy Image Compression with Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルによる損失画像圧縮
- Authors: Ruihan Yang, Stephan Mandt
- Abstract要約: 拡散モデルは、高品質な画像生成のマイルストーンとなる新しい生成モデルのクラスである。
本稿では,画像圧縮のための条件付き拡散モデルに基づくエンドツーエンド最適化フレームワークについて概説する。
- 参考スコア(独自算出の注目度): 19.646064907162707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are a new class of generative models that mark a milestone
in high-quality image generation while relying on solid probabilistic
principles. This makes them promising candidate models for neural image
compression. This paper outlines an end-to-end optimized framework based on a
conditional diffusion model for image compression. Besides latent variables
inherent to the diffusion process, the model introduces an additional
per-instance "content" latent variable to condition the denoising process. Upon
decoding, the diffusion process conditionally generates/reconstructs an image
using ancestral sampling. Our experiments show that this approach outperforms
one of the best-performing conventional image codecs (BPG) and one neural codec
on two compression benchmarks, where we focus on rate-perception tradeoffs.
Qualitatively, our approach shows fewer decompression artifacts than the
classical approach.
- Abstract(参考訳): 拡散モデルは、確固とした確率論的原理に依存しつつ、高品質な画像生成のマイルストーンとなる新しい生成モデルである。
これにより、ニューラル画像圧縮の候補モデルが期待できる。
本稿では,画像圧縮のための条件拡散モデルに基づくエンドツーエンド最適化フレームワークについて概説する。
拡散過程に固有の潜伏変数に加えて、モデルではデノナイジング過程を条件付けるために、インスタンスごとの潜伏変数を導入する。
復号時に拡散処理は、祖先サンプリングを用いて画像を条件付きで生成/再構成する。
実験の結果,この手法は2つの圧縮ベンチマークにおいて,BPGと1つのニューラルコーデックで最高の性能を示し,レートパーセプショントレードオフに着目した。
定性的には、従来のアプローチよりも減圧アーティファクトが少ない。
関連論文リスト
- Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Fixed-point Inversion for Text-to-image diffusion models [39.66869060771468]
与えられた画像を反転させる現在の技術は遅く、あるいは不正確である。
ここでは、この問題を不動点方程式問題として定式化し、不動点反復を用いて解く。
符号化のプロンプト対応調整を適用することで、その修正方法を示す。
論文 参考訳(メタデータ) (2023-12-19T19:19:19Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Variational Diffusion Auto-encoder: Latent Space Extraction from
Pre-trained Diffusion Models [0.0]
可変オートエンコーダ(VAE)は、生成された画像の品質の問題に直面し、しばしば目立った曖昧さを示す。
この問題は、条件付きデータ分布を近似する非現実的な仮定である $p(textbfx | textbfz)$ が等方ガウス的であることに由来する。
本稿では,エンコーダを最適化することにより,既存の拡散モデルから潜在空間を抽出し,限界データのログ化を最大化する方法について述べる。
論文 参考訳(メタデータ) (2023-04-24T14:44:47Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。
自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。
本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文 参考訳(メタデータ) (2022-08-27T17:15:38Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。