Fugu-MT 論文翻訳(概要): Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder

論文の概要: Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder

arxiv url: http://arxiv.org/abs/2404.04916v1
Date: Sun, 7 Apr 2024 10:57:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 18:51:34.470960
Title: Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder
Title（参考訳）: プリミティブエンド・ツー・エンドデコーダによる拡散に基づく知覚画像圧縮の補正
Authors: Yiyang Ma, Wenhan Yang, Jiaying Liu,
Abstract要約: 本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
参考スコア（独自算出の注目度）: 49.01721042973929
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The images produced by diffusion models can attain excellent perceptual quality. However, it is challenging for diffusion models to guarantee distortion, hence the integration of diffusion models and image compression models still needs more comprehensive explorations. This paper presents a diffusion-based image compression method that employs a privileged end-to-end decoder model as correction, which achieves better perceptual quality while guaranteeing the distortion to an extent. We build a diffusion model and design a novel paradigm that combines the diffusion model and an end-to-end decoder, and the latter is responsible for transmitting the privileged information extracted at the encoder side. Specifically, we theoretically analyze the reconstruction process of the diffusion models at the encoder side with the original images being visible. Based on the analysis, we introduce an end-to-end convolutional decoder to provide a better approximation of the score function $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ at the encoder side and effectively transmit the combination. Experiments demonstrate the superiority of our method in both distortion and perception compared with previous perceptual compression methods.
Abstract（参考訳）: 拡散モデルにより生成された画像は、優れた知覚品質が得られる。しかし、拡散モデルが歪みを保証することは困難であるため、拡散モデルと画像圧縮モデルの統合はいまだにより包括的な探索を必要としている。本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。我々は拡散モデルを構築し、拡散モデルとエンドツーエンドデコーダを組み合わせた新しいパラダイムを設計し、後者はエンコーダ側で抽出された特権情報を送信する。具体的には,エンコーダ側の拡散モデルの再構成過程を,元の画像が見えるように理論的に解析する。この分析に基づいて、エンコーダ側のスコア関数 $\nabla_{\mathbf{x}_t}\log p(\mathbf{x}_t)$ をよりよく近似し、その組み合わせを効果的に伝達する、エンドツーエンドの畳み込みデコーダを導入する。従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。

関連論文リスト

SODiff: Semantic-Oriented Diffusion Model for JPEG Compression Artifacts Removal [50.90827365790281]
SODiffはJPEGアーティファクト削除のためのセマンティック指向のワンステップ拡散モデルである。我々の中核的な考え方は、効果的な復元ヒンジは、事前訓練された拡散モデルに対する意味指向的なガイダンスを提供することである。 SAIPEは、低品質(LQ)画像からリッチな特徴を抽出し、テキストエンコーダとセマンティックに整合した埋め込み空間に投影する。
論文参考訳（メタデータ） (2025-08-10T13:48:07Z)
Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。 CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文参考訳（メタデータ） (2025-05-19T14:13:14Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文参考訳（メタデータ） (2025-03-11T17:51:07Z)
Sample what you cant compress [6.24979299238534]
拡散に基づく損失の下で、連続エンコーダとデコーダの学習方法を示す。このアプローチは、GANベースのオートエンコーダと比較して、再構築品質が向上する。また, 得られた表現は, 最先端のGANに基づく損失から得られた表現と比較して, 潜時拡散モデルによりモデル化し易いことを示す。
論文参考訳（メタデータ） (2024-09-04T08:42:42Z)
Zero-Shot Image Compression with Diffusion-Based Posterior Sampling [34.50287066865267]
本研究は、既存の事前学習拡散モデルで学習された画像を利用して、損失画像圧縮の課題を解決することで、このギャップに対処する。 PSC (Posterior Sampling-based Compression) は, ゼロショット拡散を用いた後部サンプルを用いた。 PSCは,画像圧縮のための事前学習拡散モデルと後部サンプルのさらなる探索を行うため,確立された手法と比較して,競争力のある結果が得られる。
論文参考訳（メタデータ） (2024-07-13T14:24:22Z)
Lossy Image Compression with Foundation Diffusion Models [10.407650300093923]
本研究は,拡散を用いた量子化誤差の除去をデノナイジングタスクとして定式化し,送信された遅延画像の損失情報を復元する。当社のアプローチでは,完全な拡散生成プロセスの10%未満の実行が可能であり,拡散モデルにアーキテクチャ的な変更は不要である。
論文参考訳（メタデータ） (2024-04-12T16:23:42Z)
Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-05T11:48:35Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。本稿では,階層型統合拡散モデル(HI-Diff)を提案する。人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文参考訳（メタデータ） (2023-05-22T12:18:20Z)
Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文参考訳（メタデータ） (2023-04-06T17:59:56Z)
Denoising Diffusion Error Correction Codes [92.10654749898927]
近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。最近の最先端のニューラルデコーダは複雑で、多くのレガシデコーダの重要な反復的スキームが欠如している。本稿では,任意のブロック長の線形符号のソフトデコードにデノナイズ拡散モデルを適用することを提案する。
論文参考訳（メタデータ） (2022-09-16T11:00:50Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文参考訳（メタデータ） (2022-06-17T16:46:31Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。