論文の概要: Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
- arxiv url: http://arxiv.org/abs/2508.04979v1
- Date: Thu, 07 Aug 2025 02:24:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 21:11:55.651215
- Title: Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression
- Title(参考訳): 高速画像圧縮のための有限リッチデコーダを用いた1ステップ拡散モデルのステアリング
- Authors: Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang,
- Abstract要約: SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
- 参考スコア(独自算出の注目度): 36.10674664089876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight, we leverage a pre-trained VAE-based model to produce latents with rich information, and replace the iterative denoising process with a single-step decoding. Meanwhile, to improve fidelity, we introduce the fidelity guidance module, encouraging output that is faithful to the original image. Furthermore, we design the rate annealing training strategy to enable effective training under extremely low bitrates. Extensive experiments show that SODEC significantly outperforms existing methods, achieving superior rate-distortion-perception performance. Moreover, compared to previous diffusion-based compression models, SODEC improves decoding speed by more than 20$\times$. Code is released at: https://github.com/zhengchen1999/SODEC.
- Abstract(参考訳): 拡散に基づく画像圧縮は印象的な知覚性能を示した。
しかし,1)多段階サンプリングによる過剰な復号遅延,(2)生成前の過度信頼による不確かさ,の2つの重大な欠点がみられた。
これらの問題に対処するために,新しい1ステップ拡散画像圧縮モデルであるSODECを提案する。
画像圧縮では、十分な情報的潜伏剤が多段階改善を不要にすると主張している。
この知見に基づいて、トレーニング済みのVAEベースのモデルを用いて、豊富な情報を持つ潜伏者を生成し、反復的復調処理を1ステップの復号化で置き換える。
一方、忠実度を向上させるために、原画像に忠実な出力を奨励する忠実度誘導モジュールを導入する。
さらに、極低ビットレートでの効果的なトレーニングを可能にするために、レートアニールトレーニング戦略を設計する。
大規模な実験により,SODECは既存の手法よりも優れており,より優れた速度歪み知覚性能が得られることが示された。
さらに、従来の拡散型圧縮モデルと比較して、SODECはデコード速度を20$\times$以上改善する。
コードはhttps://github.com/zhengchen 1999/SODEC.comで公開されている。
関連論文リスト
- StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。
実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - One-Way Ticket:Time-Independent Unified Encoder for Distilling Text-to-Image Diffusion Models [65.96186414865747]
テキスト・ツー・イメージ(T2I)拡散モデルは、推論速度と画質のトレードオフに直面している。
学生モデルUNetアーキテクチャのための最初の時間非依存の統一TiUEを紹介する。
ワンパススキームを使用して、TiUEは複数のデコーダタイムステップにまたがるエンコーダ機能を共有し、並列サンプリングを可能にする。
論文 参考訳(メタデータ) (2025-05-28T04:23:22Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [52.65036099944483]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
既存の手法のほとんどは、ランダムノイズから反復的にデノイングすることで、イメージを再構成する。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Controllable Distortion-Perception Tradeoff Through Latent Diffusion for Neural Image Compression [30.293252608423742]
ニューラル画像圧縮は、レート、歪み、知覚の間で難しいトレードオフに直面していることが多い。
固定されたニューラルイメージの両面を同時に扱う新しいアプローチを提案する。
1dB以上のPSNRを犠牲にすることなくLPIPS-BDRateを150%以上改善できる。
論文 参考訳(メタデータ) (2024-12-16T02:09:32Z) - Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior [8.772652777234315]
本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-29T16:02:38Z) - Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。