論文の概要: StableCodec: Taming One-Step Diffusion for Extreme Image Compression
- arxiv url: http://arxiv.org/abs/2506.21977v1
- Date: Fri, 27 Jun 2025 07:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.122576
- Title: StableCodec: Taming One-Step Diffusion for Extreme Image Compression
- Title(参考訳): StableCodec: エクストリーム画像圧縮のためのワンステップ拡散処理
- Authors: Tianyu Zhang, Xin Luo, Li Li, Dong Liu,
- Abstract要約: 拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
- 参考スコア(独自算出の注目度): 19.69733852050049
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image compression has shown remarkable potential for achieving ultra-low bitrate coding (less than 0.05 bits per pixel) with high realism, by leveraging the generative priors of large pre-trained text-to-image diffusion models. However, current approaches require a large number of denoising steps at the decoder to generate realistic results under extreme bitrate constraints, limiting their application in real-time compression scenarios. Additionally, these methods often sacrifice reconstruction fidelity, as diffusion models typically fail to guarantee pixel-level consistency. To address these challenges, we introduce StableCodec, which enables one-step diffusion for high-fidelity and high-realism extreme image compression with improved coding efficiency. To achieve ultra-low bitrates, we first develop an efficient Deep Compression Latent Codec to transmit a noisy latent representation for a single-step denoising process. We then propose a Dual-Branch Coding Structure, consisting of a pair of auxiliary encoder and decoder, to enhance reconstruction fidelity. Furthermore, we adopt end-to-end optimization with joint bitrate and pixel-level constraints. Extensive experiments on the CLIC 2020, DIV2K, and Kodak dataset demonstrate that StableCodec outperforms existing methods in terms of FID, KID and DISTS by a significant margin, even at bitrates as low as 0.005 bits per pixel, while maintaining strong fidelity. Additionally, StableCodec achieves inference speeds comparable to mainstream transform coding schemes. All source code are available at https://github.com/LuizScarlet/StableCodec.
- Abstract(参考訳): 拡散に基づく画像圧縮は、大きな事前学習されたテキスト-画像拡散モデルの生成先を活用することにより、高いリアリズムで超低ビットレート符号化(ピクセル当たり0.05ビット未満)を実現することができる。
しかしながら、現在のアプローチでは、極端なビットレート制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要であり、リアルタイム圧縮シナリオでのアプリケーションの使用を制限する。
さらに、拡散モデルではピクセルレベルの一貫性を保証できないため、これらの手法はしばしば再構成の忠実さを犠牲にする。
これらの課題に対処するために、符号化効率を向上し、高忠実かつ高現実的な極端な画像圧縮のためのワンステップ拡散を可能にするStableCodecを導入する。
超低ビットレートを実現するために、我々はまず、単一ステップの復調処理に対してノイズの多い遅延表現を送信するための効率的なDeep Compression Latent Codecを開発した。
次に,一対の補助エンコーダとデコーダからなるデュアルブランチ符号化構造を提案し,再構成精度を向上させる。
さらに,共同ビットレートと画素レベルの制約によるエンドツーエンドの最適化も導入する。
CLIC 2020、DIV2K、Kodakデータセットの大規模な実験では、StableCodecはFID、KID、DITSの点で既存の手法よりも大幅に優れており、ビットレートは1ピクセルあたり0.005ビットまで低く、忠実さを維持している。
さらに、StableCodecは主流の変換符号化方式に匹敵する推論速度を達成する。
すべてのソースコードはhttps://github.com/LuizScarlet/StableCodec.comで入手できる。
関連論文リスト
- DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。
実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。