論文の概要: Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder
- arxiv url: http://arxiv.org/abs/2404.04916v1
- Date: Sun, 7 Apr 2024 10:57:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 18:51:34.470960
- Title: Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder
- Title(参考訳): プリミティブエンド・ツー・エンドデコーダによる拡散に基づく知覚画像圧縮の補正
- Authors: Yiyang Ma, Wenhan Yang, Jiaying Liu,
- Abstract要約: 本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
- 参考スコア(独自算出の注目度): 49.01721042973929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The images produced by diffusion models can attain excellent perceptual quality. However, it is challenging for diffusion models to guarantee distortion, hence the integration of diffusion models and image compression models still needs more comprehensive explorations. This paper presents a diffusion-based image compression method that employs a privileged end-to-end decoder model as correction, which achieves better perceptual quality while guaranteeing the distortion to an extent. We build a diffusion model and design a novel paradigm that combines the diffusion model and an end-to-end decoder, and the latter is responsible for transmitting the privileged information extracted at the encoder side. Specifically, we theoretically analyze the reconstruction process of the diffusion models at the encoder side with the original images being visible. Based on the analysis, we introduce an end-to-end convolutional decoder to provide a better approximation of the score function $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ at the encoder side and effectively transmit the combination. Experiments demonstrate the superiority of our method in both distortion and perception compared with previous perceptual compression methods.
- Abstract(参考訳): 拡散モデルにより生成された画像は、優れた知覚品質が得られる。
しかし、拡散モデルが歪みを保証することは困難であるため、拡散モデルと画像圧縮モデルの統合はいまだにより包括的な探索を必要としている。
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
我々は拡散モデルを構築し、拡散モデルとエンドツーエンドデコーダを組み合わせた新しいパラダイムを設計し、後者はエンコーダ側で抽出された特権情報を送信する。
具体的には,エンコーダ側の拡散モデルの再構成過程を,元の画像が見えるように理論的に解析する。
この分析に基づいて、エンコーダ側のスコア関数 $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ をよりよく近似し、その組み合わせを効果的に伝達する、エンドツーエンドの畳み込みデコーダを導入する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
関連論文リスト
- Sample what you cant compress [6.24979299238534]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。
このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。
また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文 参考訳(メタデータ) (2024-09-04T08:42:42Z) - Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。
PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。
PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文 参考訳(メタデータ) (2024-07-13T14:24:22Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。
最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。
本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文 参考訳(メタデータ) (2022-09-16T11:00:50Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。