論文の概要: Generative Latent Coding for Ultra-Low Bitrate Image Compression
- arxiv url: http://arxiv.org/abs/2512.20194v1
- Date: Tue, 23 Dec 2025 09:35:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.815777
- Title: Generative Latent Coding for Ultra-Low Bitrate Image Compression
- Title(参考訳): 超低ビットレート画像圧縮のための生成遅延符号化
- Authors: Zhaoyang Jia, Jiahao Li, Bin Li, Houqiang Li, Yan Lu,
- Abstract要約: 本稿では,生成ベクトル量子化変分自動エンコーダ(VQ-VAE)の潜時空間で変換符号化を行う生成潜時符号化アーキテクチャを提案する。
生成潜伏空間は、より空間性が高く、より豊かな意味を持ち、人間の知覚との整合性が良く、高現実性および高忠実性圧縮を達成するのに有利である。
- 参考スコア(独自算出の注目度): 61.71793017252801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing image compression approaches perform transform coding in the pixel space to reduce its spatial redundancy. However, they encounter difficulties in achieving both high-realism and high-fidelity at low bitrate, as the pixel-space distortion may not align with human perception. To address this issue, we introduce a Generative Latent Coding (GLC) architecture, which performs transform coding in the latent space of a generative vector-quantized variational auto-encoder (VQ-VAE), instead of in the pixel space. The generative latent space is characterized by greater sparsity, richer semantic and better alignment with human perception, rendering it advantageous for achieving high-realism and high-fidelity compression. Additionally, we introduce a categorical hyper module to reduce the bit cost of hyper-information, and a code-prediction-based supervision to enhance the semantic consistency. Experiments demonstrate that our GLC maintains high visual quality with less than 0.04 bpp on natural images and less than 0.01 bpp on facial images. On the CLIC2020 test set, we achieve the same FID as MS-ILLM with 45% fewer bits. Furthermore, the powerful generative latent space enables various applications built on our GLC pipeline, such as image restoration and style transfer. The code is available at https://github.com/jzyustc/GLC.
- Abstract(参考訳): 既存の画像圧縮手法の多くは、その空間冗長性を低減するために画素空間の変換符号化を行う。
しかし、ピクセル空間の歪みは人間の知覚と一致しないため、高現実性と高忠実性の両方を低ビットレートで達成することは困難である。
この問題に対処するため,生成ベクトル量子化変分オートエンコーダ(VQ-VAE)の潜時空間で変換符号化を行うGLCアーキテクチャを導入する。
生成潜伏空間は、より空間性が高く、より豊かな意味を持ち、人間の知覚との整合性が良く、高現実性および高忠実性圧縮を達成するのに有利である。
さらに、ハイパー情報のビットコストを低減するための分類的ハイパーモジュールと、セマンティック一貫性を高めるためのコード予測に基づく監督を導入する。
実験により、GLCは自然画像では0.04bpp未満、顔画像では0.01bpp未満の高画質を維持していることが示された。
CLIC2020テストセットでは、ビット数が45%少ないMS-ILLMと同じFIDを達成する。
さらに、画像復元やスタイル転送など、GLCパイプライン上に構築された様々なアプリケーションに対して、強力な生成遅延空間が実現されている。
コードはhttps://github.com/jzyustc/GLCで公開されている。
関連論文リスト
- StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression [61.500904231491596]
画像圧縮とビデオ圧縮のほとんどの手法は、画素空間における変換符号化を行い、冗長性を低減する。
画像とビデオの圧縮, GLCイメージ, GLC-Video のための textbfGenerative textbfLatent textbfGLC (textbfGLC) モデルを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:31:33Z) - Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。
我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。
我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文 参考訳(メタデータ) (2025-02-20T18:45:44Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Computationally-Efficient Neural Image Compression with Shallow Decoders [43.115831685920114]
本稿では,JPEGに類似した浅い,あるいは線形な復号変換を用いることで,復号化複雑性のギャップを解消する。
我々は、より強力なエンコーダネットワークと反復符号化を採用することにより、符号化と復号の間のしばしば非対称な予算を利用する。
論文 参考訳(メタデータ) (2023-04-13T03:38:56Z) - Unsupervised Superpixel Generation using Edge-Sparse Embedding [18.92698251515116]
特徴に対する画素の類似性に基づいて画像をスーパーピクセルに分割することは、データの複雑さを著しく減らし、その後の画像処理タスクを改善する。
コントラストの少ない非畳み込み画像デコーダを提案し、再構成画像にスムーズで接続されたエッジを強制する。
我々はデコーダの最後に隠された層から、余分な空間情報をスムーズなアクティベーションマップに符号化してエッジスパース画素埋め込みを生成し、標準クラスタリングアルゴリズムを用いて高品質なスーパーピクセルを抽出する。
論文 参考訳(メタデータ) (2022-11-28T15:55:05Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。