論文の概要: DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates
- arxiv url: http://arxiv.org/abs/2506.16572v1
- Date: Thu, 19 Jun 2025 19:53:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.238783
- Title: DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates
- Title(参考訳): DiffO:超低速度ビットレートにおける画像圧縮のための単一ステップ拡散
- Authors: Chanung Park, Joo Chan Lee, Jong Hwan Ko,
- Abstract要約: 画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。
実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
- 参考スコア(独自算出の注目度): 7.344746778324299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although image compression is fundamental to visual data processing and has inspired numerous standard and learned codecs, these methods still suffer severe quality degradation at extremely low bits per pixel. While recent diffusion based models provided enhanced generative performance at low bitrates, they still yields limited perceptual quality and prohibitive decoding latency due to multiple denoising steps. In this paper, we propose the first single step diffusion model for image compression (DiffO) that delivers high perceptual quality and fast decoding at ultra low bitrates. DiffO achieves these goals by coupling two key innovations: (i) VQ Residual training, which factorizes a structural base code and a learned residual in latent space, capturing both global geometry and high frequency details; and (ii) rate adaptive noise modulation, which tunes denoising strength on the fly to match the desired bitrate. Extensive experiments show that DiffO surpasses state of the art compression performance while improving decoding speed by about 50x compared to prior diffusion-based methods, greatly improving the practicality of generative codecs. The code will be available at https://github.com/Freemasti/DiffO.
- Abstract(参考訳): 画像圧縮は視覚データ処理の基本であり、多くの標準および学習コーデックに影響を与えたが、これらの手法は1ピクセルあたりの極端に低ビットで深刻な品質劣化を被っている。
最近の拡散モデルでは、低ビットレートで生成性能が向上したが、複数のデノナイジングステップにより、知覚品質が制限され、復号遅延が禁じられている。
本稿では,超低ビットレートで高い知覚品質と高速デコードを実現する画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。
DiffOは2つの重要なイノベーションを結合することで、これらの目標を達成する。
一 構造ベースコードと学習残差を潜在空間に分解し、大域的幾何と高周波の詳細の両方を捉えるVQ残留訓練
(II) 所望のビットレートに合うようにハエの強みを調整し, 適応雑音変調を行う。
拡張実験により,DiffOの圧縮性能は従来の拡散法に比べて50倍程度向上し,生成コーデックの実用性は大幅に向上した。
コードはhttps://github.com/Freemasti/DiffO.comで入手できる。
関連論文リスト
- OSCAR: One-Step Diffusion Codec for Image Compression Across Multiple Bit-rates [52.65036099944483]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
既存の手法のほとんどは、ランダムノイズから反復的にデノイングすることで、イメージを再構成する。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。