論文の概要: Extreme Image Compression using Fine-tuned VQGANs
- arxiv url: http://arxiv.org/abs/2307.08265v3
- Date: Fri, 15 Dec 2023 14:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:23:04.704168
- Title: Extreme Image Compression using Fine-tuned VQGANs
- Title(参考訳): 微調整vqganを用いた極端画像圧縮
- Authors: Qi Mao, Tinghan Yang, Yinuo Zhang, Zijian Wang, Meng Wang, Shiqi Wang,
Siwei Ma
- Abstract要約: 本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
- 参考スコア(独自算出の注目度): 43.43014096929809
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in generative compression methods have demonstrated
remarkable progress in enhancing the perceptual quality of compressed data,
especially in scenarios with low bitrates. However, their efficacy and
applicability to achieve extreme compression ratios ($<0.05$ bpp) remain
constrained. In this work, we propose a simple yet effective coding framework
by introducing vector quantization (VQ)--based generative models into the image
compression domain. The main insight is that the codebook learned by the VQGAN
model yields a strong expressive capacity, facilitating efficient compression
of continuous information in the latent space while maintaining reconstruction
quality. Specifically, an image can be represented as VQ-indices by finding the
nearest codeword, which can be encoded using lossless compression methods into
bitstreams. We propose clustering a pre-trained large-scale codebook into
smaller codebooks through the K-means algorithm, yielding variable bitrates and
different levels of reconstruction quality within the coding framework.
Furthermore, we introduce a transformer to predict lost indices and restore
images in unstable environments. Extensive qualitative and quantitative
experiments on various benchmark datasets demonstrate that the proposed
framework outperforms state-of-the-art codecs in terms of perceptual
quality-oriented metrics and human perception at extremely low bitrates ($\le
0.04$ bpp). Remarkably, even with the loss of up to $20\%$ of indices, the
images can be effectively restored with minimal perceptual loss.
- Abstract(参考訳): 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。
しかし、極端な圧縮率(<0.05$ bpp)を達成する効果と適用性は依然として制限されている。
本研究では,画像圧縮領域にベクトル量子化(vq)に基づく生成モデルを導入することで,単純かつ効果的な符号化フレームワークを提案する。
主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。
具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。
我々は、学習済みの大規模コードブックをK-meansアルゴリズムによりより小さなコードブックにクラスタリングし、プログラミングフレームワーク内の様々なビットレートと異なるレベルの再構築品質を得る。
さらに,不安定な環境下での損失指標の予測と画像復元を行うトランスフォーマを導入する。
様々なベンチマークデータセットの大規模な定性的および定量的実験により、提案されたフレームワークは、知覚的品質指向のメトリクスと極低ビットレートでの人間の知覚において、最先端のコーデックよりも優れている(\le 0.04$ bpp)。
驚くべきことに、最大20〜%のインデックスが失われても、画像は最小限の知覚損失で効果的に復元できる。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Improving Multi-generation Robustness of Learned Image Compression [16.86614420872084]
ネットワーク構造を変更せずに50回再符号化しても,BPGの最初の圧縮に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T03:26:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。