論文の概要: Generative Image Compression by Estimating Gradients of the Rate-variable Feature Distribution
- arxiv url: http://arxiv.org/abs/2505.20984v1
- Date: Tue, 27 May 2025 10:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.576511
- Title: Generative Image Compression by Estimating Gradients of the Rate-variable Feature Distribution
- Title(参考訳): 速度可変特徴分布の勾配推定による生成画像圧縮
- Authors: Minghao Han, Weiyi You, Jinhua Zhang, Leheng Zhang, Ce Zhu, Shuhang Gu,
- Abstract要約: 生成画像圧縮に適した拡散に基づく新しい生成モデリングフレームワークを提案する。
逆ニューラルネットワークは、圧縮プロセスを直接反転することにより、画像の再構成を訓練する。
このアプローチは、最小限のサンプリングステップしか持たないスムーズなレート調整とフォトリアリスティックな再構成を実現する。
- 参考スコア(独自算出の注目度): 37.60572296105984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While learned image compression (LIC) focuses on efficient data transmission, generative image compression (GIC) extends this framework by integrating generative modeling to produce photo-realistic reconstructed images. In this paper, we propose a novel diffusion-based generative modeling framework tailored for generative image compression. Unlike prior diffusion-based approaches that indirectly exploit diffusion modeling, we reinterpret the compression process itself as a forward diffusion path governed by stochastic differential equations (SDEs). A reverse neural network is trained to reconstruct images by reversing the compression process directly, without requiring Gaussian noise initialization. This approach achieves smooth rate adjustment and photo-realistic reconstructions with only a minimal number of sampling steps. Extensive experiments on benchmark datasets demonstrate that our method outperforms existing generative image compression approaches across a range of metrics, including perceptual distortion, statistical fidelity, and no-reference quality assessments.
- Abstract(参考訳): 学習された画像圧縮(lic)は効率的なデータ伝送に重点を置いているが、生成的画像圧縮(GIC)は、生成的モデリングを統合して、フォトリアリスティックな再構成された画像を生成することにより、この枠組みを拡張している。
本稿では,生成画像圧縮に適した拡散に基づく新しい生成モデリングフレームワークを提案する。
拡散モデリングを間接的に活用する従来の拡散に基づくアプローチとは異なり、我々は圧縮過程自体を確率微分方程式(SDE)によって支配される前方拡散経路として再解釈する。
逆ニューラルネットワークは、ガウス雑音初期化を必要とせず、圧縮プロセスを直接反転させることで、画像の再構成を訓練する。
このアプローチは、最小限のサンプリングステップしか持たないスムーズなレート調整とフォトリアリスティックな再構成を実現する。
ベンチマークデータセットの大規模な実験により,提案手法は知覚歪み,統計的忠実度,非参照品質評価など,様々な指標において既存の画像圧縮手法よりも優れていることが示された。
関連論文リスト
- Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Progressive Compression with Universally Quantized Diffusion Models [35.199627388957566]
プログレッシブコーディングのための拡散モデルの可能性を探り、インクリメンタルに伝送および復号化が可能なビット列を導出する。
ガウス拡散モデルや条件付き拡散モデルに基づく先行研究とは異なり、前処理における一様雑音を伴う新しい拡散モデルを提案する。
画像圧縮において有望な第一結果が得られ、単一のモデルで幅広いビットレートで競合速度歪みとレートリアリズムが達成される。
論文 参考訳(メタデータ) (2024-12-14T19:06:01Z) - PSC: Posterior Sampling-Based Compression [34.50287066865267]
Posterior Sampling-based Compression (PSC) は、学習前の拡散モデルを唯一のニューラルネットワークコンポーネントとして利用するゼロショット圧縮法である。
PSCは画像に適応した変換を構成する。
我々はPSCの性能が、レート、歪み、知覚品質の点で確立されたトレーニングベースの手法に匹敵することを示した。
論文 参考訳(メタデータ) (2024-07-13T14:24:22Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。
これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。
提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文 参考訳(メタデータ) (2023-06-18T03:21:11Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。