Fugu-MT 論文翻訳(概要): Extreme Image Compression using Fine-tuned VQGAN Models

論文の概要: Extreme Image Compression using Fine-tuned VQGAN Models

arxiv url: http://arxiv.org/abs/2307.08265v1
Date: Mon, 17 Jul 2023 06:14:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-18 14:34:02.719873
Title: Extreme Image Compression using Fine-tuned VQGAN Models
Title（参考訳）: 微調整VQGANモデルを用いた極端画像圧縮
Authors: Qi Mao, Tinghan Yang, Yinuo Zhang, Shuyin Pan, Meng Wang, Shiqi Wang, Siwei Ma
Abstract要約: 本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することで,シンプルで効果的な符号化フレームワークを提案する。圧縮法を用いてビットストリームにエンコードできる最寄りのコードワードを見つけることで、画像はVQインデックスとして表現できる。これにより、画像は多様なVQインデックスとして表現され、可変マップと異なるレベルの再構成品質が得られる。
参考スコア（独自算出の注目度）: 43.578086778114724
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advances in generative compression methods have demonstrated remarkable progress in enhancing the perceptual quality of compressed data, especially in scenarios with low bitrates. Nevertheless, their efficacy and applicability in achieving extreme compression ratios ($<0.1$ bpp) still remain constrained. In this work, we propose a simple yet effective coding framework by introducing vector quantization (VQ)-based generative models into the image compression domain. The main insight is that the codebook learned by the VQGAN model yields strong expressive capacity, facilitating efficient compression of continuous information in the latent space while maintaining reconstruction quality. Specifically, an image can be represented as VQ-indices by finding the nearest codeword, which can be encoded using lossless compression methods into bitstreams. We then propose clustering a pre-trained large-scale codebook into smaller codebooks using the K-means algorithm. This enables images to be represented as diverse ranges of VQ-indices maps, resulting in variable bitrates and different levels of reconstruction quality. Extensive qualitative and quantitative experiments on various datasets demonstrate that the proposed framework outperforms the state-of-the-art codecs in terms of perceptual quality-oriented metrics and human perception under extremely low bitrates.
Abstract（参考訳）: 近年の生成圧縮法の進歩は、特にビットレートの低いシナリオにおいて、圧縮データの知覚的品質の向上に顕著な進歩を示している。それでも、極端な圧縮比(<0.1$ bpp)を達成するための有効性と適用性は依然として制限されている。本稿では,ベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入することにより,単純かつ効果的な符号化フレームワークを提案する。主な洞察は、vqganモデルによって学習されたコードブックは、強い表現能力をもたらし、再構築品質を維持しながら、潜在空間における連続情報の効率的な圧縮を促進する。具体的には、最も近いコードワードを見つけることで、画像はvqインデックスとして表現でき、損失のない圧縮メソッドを使ってビットストリームにエンコードすることができる。 K-meansアルゴリズムを用いて,事前学習した大規模コードブックを小さなコードブックにクラスタリングする。これにより、画像は様々な範囲のVQインデックスマップとして表現され、可変ビットレートと異なるレベルの再構成品質が得られる。様々なデータセットに対する大規模定性的および定量的実験により、提案手法は、知覚的品質指向のメトリクスと極低ビットレート下での人間の知覚において、最先端のコーデックよりも優れていることを示した。

関連論文リスト

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization [59.481950697968706]
残留ベクトル量子化(RVQ)に基づくコンパクトなプログレッシブ生成画像圧縮(ProGIC)を提案する。 RVQでは、ベクトル量子化器の列がステージごとに残余を符号化し、それぞれが独自のコードブックを持つ。これを奥行き分離可能な畳み込みと小さな注意ブロックに基づく軽量なバックボーンと組み合わせることで、GPUとCPUのみのデバイスに実用的なデプロイを可能にします。
論文参考訳（メタデータ） (2026-03-03T11:47:05Z)
DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding [27.875207681547074]
プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としている。ニューラルネットワーク(NN)に基づくPICの研究は、その初期段階にある。本稿では,まず,学習した量子化ステップサイズを各量子化レイヤの学習により活用するNNベースのプログレッシブコーディング手法を提案する。
論文参考訳（メタデータ） (2024-08-22T06:32:53Z)
Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文参考訳（メタデータ） (2024-06-02T14:22:09Z)
Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。 UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T14:27:02Z)
Enhancing the Rate-Distortion-Perception Flexibility of Learned Image Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文参考訳（メタデータ） (2024-03-05T11:48:35Z)
Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-01-25T08:11:27Z)
Improving Multi-generation Robustness of Learned Image Compression [16.86614420872084]
ネットワーク構造を変更せずに50回再符号化しても,BPGの最初の圧縮に匹敵する性能が得られることを示す。
論文参考訳（メタデータ） (2022-10-31T03:26:11Z)
Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文参考訳（メタデータ） (2022-01-27T20:20:03Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。 Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-22T04:04:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。