論文の概要: Extreme Image Compression using Fine-tuned VQGANs
- arxiv url: http://arxiv.org/abs/2307.08265v3
- Date: Fri, 15 Dec 2023 14:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:23:04.704168
- Title: Extreme Image Compression using Fine-tuned VQGANs
- Title(参考訳): 微調整vqganを用いた極端画像圧縮
- Authors: Qi Mao, Tinghan Yang, Yinuo Zhang, Zijian Wang, Meng Wang, Shiqi Wang,
Siwei Ma
- Abstract要約: 本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
- 参考スコア(独自算出の注目度): 43.43014096929809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in generative compression methods have demonstrated
remarkable progress in enhancing the perceptual quality of compressed data,
especially in scenarios with low bitrates. However, their efficacy and
applicability to achieve extreme compression ratios ($<0.05$ bpp) remain
constrained. In this work, we propose a simple yet effective coding framework
by introducing vector quantization (VQ)--based generative models into the image
compression domain. The main insight is that the codebook learned by the VQGAN
model yields a strong expressive capacity, facilitating efficient compression
of continuous information in the latent space while maintaining reconstruction
quality. Specifically, an image can be represented as VQ-indices by finding the
nearest codeword, which can be encoded using lossless compression methods into
bitstreams. We propose clustering a pre-trained large-scale codebook into
smaller codebooks through the K-means algorithm, yielding variable bitrates and
different levels of reconstruction quality within the coding framework.
Furthermore, we introduce a transformer to predict lost indices and restore
images in unstable environments. Extensive qualitative and quantitative
experiments on various benchmark datasets demonstrate that the proposed
framework outperforms state-of-the-art codecs in terms of perceptual
quality-oriented metrics and human perception at extremely low bitrates ($\le
0.04$ bpp). Remarkably, even with the loss of up to $20\%$ of indices, the
images can be effectively restored with minimal perceptual loss.
- Abstract(参考訳): 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。
しかし、極端な圧縮率(<0.05$ bpp)を達成する効果と適用性は依然として制限されている。
本研究では,画像圧縮領域にベクトル量子化(vq)に基づく生成モデルを導入することで,単純かつ効果的な符号化フレームワークを提案する。
主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。
具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。
我々は、学習済みの大規模コードブックをK-meansアルゴリズムによりより小さなコードブックにクラスタリングし、プログラミングフレームワーク内の様々なビットレートと異なるレベルの再構築品質を得る。
さらに,不安定な環境下での損失指標の予測と画像復元を行うトランスフォーマを導入する。
様々なベンチマークデータセットの大規模な定性的および定量的実験により、提案されたフレームワークは、知覚的品質指向のメトリクスと極低ビットレートでの人間の知覚において、最先端のコーデックよりも優れている(\le 0.04$ bpp)。
驚くべきことに、最大20〜%のインデックスが失われても、画像は最小限の知覚損失で効果的に復元できる。
関連論文リスト
- DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding [27.875207681547074]
プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としている。
ニューラルネットワーク(NN)に基づくPICの研究は、その初期段階にある。
本稿では,まず,学習した量子化ステップサイズを各量子化レイヤの学習により活用するNNベースのプログレッシブコーディング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T06:32:53Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。
高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。