論文の概要: CoD: A Diffusion Foundation Model for Image Compression
- arxiv url: http://arxiv.org/abs/2511.18706v1
- Date: Mon, 24 Nov 2025 03:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.984102
- Title: CoD: A Diffusion Foundation Model for Image Compression
- Title(参考訳): CoD:画像圧縮のための拡散基礎モデル
- Authors: Zhaoyang Jia, Zihan Zheng, Naifu Xue, Jiahao Li, Bin Li, Zongyu Guo, Xiaoyi Zhang, Houqiang Li, Yan Lu,
- Abstract要約: 既存の拡散コーデックは、通常、安定拡散のようなテキストから画像への拡散基盤モデルに基づいて構築される。
textbfCoDは、圧縮と生成の両方のエンドツーエンドの最適化を可能にするために、ゼロからトレーニングすることができる。
- 参考スコア(独自算出の注目度): 57.572664625372106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing diffusion codecs typically build on text-to-image diffusion foundation models like Stable Diffusion. However, text conditioning is suboptimal from a compression perspective, hindering the potential of downstream diffusion codecs, particularly at ultra-low bitrates. To address it, we introduce \textbf{CoD}, the first \textbf{Co}mpression-oriented \textbf{D}iffusion foundation model, trained from scratch to enable end-to-end optimization of both compression and generation. CoD is not a fixed codec but a general foundation model designed for various diffusion-based codecs. It offers several advantages: \textbf{High compression efficiency}, replacing Stable Diffusion with CoD in downstream codecs like DiffC achieves SOTA results, especially at ultra-low bitrates (e.g., 0.0039 bpp); \textbf{Low-cost and reproducible training}, 300$\times$ faster training than Stable Diffusion ($\sim$ 20 vs. $\sim$ 6,250 A100 GPU days) on entirely open image-only datasets; \textbf{Providing new insights}, e.g., We find pixel-space diffusion can achieve VTM-level PSNR with high perceptual quality and can outperform GAN-based codecs using fewer parameters. We hope CoD lays the foundation for future diffusion codec research. Codes will be released.
- Abstract(参考訳): 既存の拡散コーデックは、通常、安定拡散のようなテキストから画像への拡散基盤モデルに基づいて構築される。
しかし、テキスト条件付けは圧縮の観点からは最適以下であり、特に超低ビットレートにおいて下流拡散コーデックの可能性を妨げている。
そこで本研究では, 圧縮と生成の両方のエンドツーエンド最適化を実現するために, ゼロからトレーニングした最初の \textbf{Co}mpression-oriented \textbf{D}iffusion foundationモデルである \textbf{CoD} を紹介する。
CoDは固定コーデックではなく、様々な拡散ベースのコーデック用に設計された一般的な基礎モデルである。
DiffCのようなダウンストリームコーデックでは、安定拡散をCoDに置き換えて、特に超低ビットレート(例えば、0.0039 bpp)でSOTA結果を得る。 \textbf{Low-cost and reproducible training}, 300$\times$ faster training than Stable Diffusion$\sim$ 20 vs. $\sim$ 6,250 A100 GPU days on completely open image-only datasets, \textbf{Providing new insights}, eg, we find pixel-space spread could achieved VTM-level PSNR with high perceptual quality and can be outperform of GAN-based codes。
我々は、CoDが将来の拡散コーデック研究の基礎を築いてくれることを願っている。
コードはリリースされる。
関連論文リスト
- DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - Lossy Compression with Pretrained Diffusion Models [4.673285689826945]
事前訓練した拡散モデルを用いた損失圧縮の原理的アルゴリズムは,少なくとも Ho 等から理解されている。
DiffCの最初の完全な実装につながる簡単な回避策を紹介します。
追加の訓練は必要としないが,本手法は,超低速で他の最先端の生成圧縮法と競合する。
論文 参考訳(メタデータ) (2025-01-16T20:02:13Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z) - Extreme Video Compression with Pre-trained Diffusion Models [11.898317376595697]
本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
論文 参考訳(メタデータ) (2024-02-14T04:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。