論文の概要: Lossy Image Compression with Conditional Diffusion Models
- arxiv url: http://arxiv.org/abs/2209.06950v1
- Date: Wed, 14 Sep 2022 21:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:02:05.428957
- Title: Lossy Image Compression with Conditional Diffusion Models
- Title(参考訳): 条件付き拡散モデルによる損失画像圧縮
- Authors: Ruihan Yang, Stephan Mandt
- Abstract要約: 拡散モデルは、高品質な画像生成のマイルストーンとなる新しい生成モデルのクラスである。
本稿では,画像圧縮のための条件付き拡散モデルに基づくエンドツーエンド最適化フレームワークについて概説する。
- 参考スコア(独自算出の注目度): 19.646064907162707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models are a new class of generative models that mark a milestone
in high-quality image generation while relying on solid probabilistic
principles. This makes them promising candidate models for neural image
compression. This paper outlines an end-to-end optimized framework based on a
conditional diffusion model for image compression. Besides latent variables
inherent to the diffusion process, the model introduces an additional
per-instance "content" latent variable to condition the denoising process. Upon
decoding, the diffusion process conditionally generates/reconstructs an image
using ancestral sampling. Our experiments show that this approach outperforms
one of the best-performing conventional image codecs (BPG) and one neural codec
on two compression benchmarks, where we focus on rate-perception tradeoffs.
Qualitatively, our approach shows fewer decompression artifacts than the
classical approach.
- Abstract(参考訳): 拡散モデルは、確固とした確率論的原理に依存しつつ、高品質な画像生成のマイルストーンとなる新しい生成モデルである。
これにより、ニューラル画像圧縮の候補モデルが期待できる。
本稿では,画像圧縮のための条件拡散モデルに基づくエンドツーエンド最適化フレームワークについて概説する。
拡散過程に固有の潜伏変数に加えて、モデルではデノナイジング過程を条件付けるために、インスタンスごとの潜伏変数を導入する。
復号時に拡散処理は、祖先サンプリングを用いて画像を条件付きで生成/再構成する。
実験の結果,この手法は2つの圧縮ベンチマークにおいて,BPGと1つのニューラルコーデックで最高の性能を示し,レートパーセプショントレードオフに着目した。
定性的には、従来のアプローチよりも減圧アーティファクトが少ない。
関連論文リスト
- Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。
当社のアプローチでは,完全な拡散生成プロセスの10%未満の実行が可能であり,拡散モデルにアーキテクチャ的な変更は不要である。
論文 参考訳(メタデータ) (2024-04-12T16:23:42Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。
自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。
本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文 参考訳(メタデータ) (2022-08-27T17:15:38Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。