論文の概要: Generative Preprocessing for Image Compression with Pre-trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2512.15270v1
- Date: Wed, 17 Dec 2025 10:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.934449
- Title: Generative Preprocessing for Image Compression with Pre-trained Diffusion Models
- Title(参考訳): 事前学習拡散モデルによる画像圧縮のための生成前処理
- Authors: Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang,
- Abstract要約: この研究は、圧縮前処理に大規模な事前学習拡散モデルを適用することで、R-P(R-Perception)最適化へのシフトを開拓した。
実験では、コダックデータセット上のdisTSを最大30.13%のBDレートで削減し、より優れた主観的な視覚的品質を提供するという、相当なR-Pゲインを示す。
- 参考スコア(独自算出の注目度): 18.470327978505065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preprocessing is a well-established technique for optimizing compression, yet existing methods are predominantly Rate-Distortion (R-D) optimized and constrained by pixel-level fidelity. This work pioneers a shift towards Rate-Perception (R-P) optimization by, for the first time, adapting a large-scale pre-trained diffusion model for compression preprocessing. We propose a two-stage framework: first, we distill the multi-step Stable Diffusion 2.1 into a compact, one-step image-to-image model using Consistent Score Identity Distillation (CiD). Second, we perform a parameter-efficient fine-tuning of the distilled model's attention modules, guided by a Rate-Perception loss and a differentiable codec surrogate. Our method seamlessly integrates with standard codecs without any modification and leverages the model's powerful generative priors to enhance texture and mitigate artifacts. Experiments show substantial R-P gains, achieving up to a 30.13% BD-rate reduction in DISTS on the Kodak dataset and delivering superior subjective visual quality.
- Abstract(参考訳): プレプロセッシングは圧縮を最適化するための確立された手法であるが、既存の手法は主にレート・ディストーション(R-D)を最適化し、ピクセルレベルの忠実さに制約されている。
この研究は、圧縮前処理に大規模な事前学習拡散モデルを適用することで、R-P(R-Perception)最適化へのシフトを開拓した。
まず,CiD (Consistent Score Identity Distillation) を用いて,多段階安定拡散2.1をコンパクトかつ一段階のイメージ・ツー・イメージモデルに蒸留する。
第二に、蒸留モデルの注意モジュールをパラメータ効率よく微調整し、レート・パーセプション・ロスと微分可能なコーデック・サロゲートで誘導する。
本手法は, 標準コーデックとシームレスに統合し, テクスチャを強化し, アーティファクトを緩和する。
実験では、コダックデータセット上のdisTSを最大30.13%のBDレートで削減し、より優れた主観的な視覚的品質を提供するという、相当なR-Pゲインを示す。
関連論文リスト
- Turbo-DDCM: Fast and Flexible Zero-Shot Diffusion-Based Image Compression [54.1069581766925]
本稿では,既存の手法よりも高速に動作する効率的なゼロショット拡散圧縮法を提案する。
提案手法は,最近提案されたDenoising Diffusion Codebook Models (DDCM) 圧縮方式に基づいている。
ユーザが指定した領域を優先する優先度対応型であるTurbo-DDCMと、ターゲットのBPPではなくターゲットのPSNRに基づいて画像を圧縮する歪み制御型である。
論文 参考訳(メタデータ) (2025-11-09T15:41:27Z) - Generative Image Coding with Diffusion Prior [3.127638190046881]
本稿では,低速圧縮性能向上のため,拡散前処理を利用した新しい生成符号化フレームワークを提案する。
提案手法は,H.266/VVCよりも圧縮性能を最大79%向上させるとともに,より広いコンテンツタイプに適応しつつ,AI生成コンテンツに対する効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-17T07:32:15Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - Generative Image Compression by Estimating Gradients of the Rate-variable Feature Distribution [37.60572296105984]
生成画像圧縮に適した拡散に基づく新しい生成モデリングフレームワークを提案する。
逆ニューラルネットワークは、圧縮プロセスを直接反転することにより、画像の再構成を訓練する。
このアプローチは、最小限のサンプリングステップしか持たないスムーズなレート調整とフォトリアリスティックな再構成を実現する。
論文 参考訳(メタデータ) (2025-05-27T10:18:24Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。