論文の概要: Extreme Image Compression using Fine-tuned VQGAN Models
- arxiv url: http://arxiv.org/abs/2307.08265v1
- Date: Mon, 17 Jul 2023 06:14:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:34:02.719873
- Title: Extreme Image Compression using Fine-tuned VQGAN Models
- Title(参考訳): 微調整VQGANモデルを用いた極端画像圧縮
- Authors: Qi Mao, Tinghan Yang, Yinuo Zhang, Shuyin Pan, Meng Wang, Shiqi Wang,
Siwei Ma
- Abstract要約: 本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することで,シンプルで効果的な符号化フレームワークを提案する。
圧縮法を用いてビットストリームにエンコードできる最寄りのコードワードを見つけることで、画像はVQインデックスとして表現できる。
これにより、画像は多様なVQインデックスとして表現され、可変マップと異なるレベルの再構成品質が得られる。
- 参考スコア(独自算出の注目度): 43.578086778114724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in generative compression methods have demonstrated
remarkable progress in enhancing the perceptual quality of compressed data,
especially in scenarios with low bitrates. Nevertheless, their efficacy and
applicability in achieving extreme compression ratios ($<0.1$ bpp) still remain
constrained. In this work, we propose a simple yet effective coding framework
by introducing vector quantization (VQ)-based generative models into the image
compression domain. The main insight is that the codebook learned by the VQGAN
model yields strong expressive capacity, facilitating efficient compression of
continuous information in the latent space while maintaining reconstruction
quality. Specifically, an image can be represented as VQ-indices by finding the
nearest codeword, which can be encoded using lossless compression methods into
bitstreams. We then propose clustering a pre-trained large-scale codebook into
smaller codebooks using the K-means algorithm. This enables images to be
represented as diverse ranges of VQ-indices maps, resulting in variable
bitrates and different levels of reconstruction quality. Extensive qualitative
and quantitative experiments on various datasets demonstrate that the proposed
framework outperforms the state-of-the-art codecs in terms of perceptual
quality-oriented metrics and human perception under extremely low bitrates.
- Abstract(参考訳): 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。
それでも、極端な圧縮比(<0.1$ bpp)を達成するための有効性と適用性は依然として制限されている。
本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することにより,単純かつ効果的な符号化フレームワークを提案する。
主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。
具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。
K-meansアルゴリズムを用いて,事前学習した大規模コードブックを小さなコードブックにクラスタリングする。
これにより、画像は様々な範囲のVQインデックスマップとして表現され、可変ビットレートと異なるレベルの再構成品質が得られる。
様々なデータセットに対する大規模定性的および定量的実験により、提案手法は、知覚的品質指向のメトリクスと極低ビットレート下での人間の知覚において、最先端のコーデックよりも優れていることを示した。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Improving Multi-generation Robustness of Learned Image Compression [16.86614420872084]
ネットワーク構造を変更せずに50回再符号化しても,BPGの最初の圧縮に匹敵する性能が得られることを示す。
論文 参考訳(メタデータ) (2022-10-31T03:26:11Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。