論文の概要: Image Compression with Product Quantized Masked Image Modeling
- arxiv url: http://arxiv.org/abs/2212.07372v2
- Date: Mon, 6 Nov 2023 13:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 01:15:23.064696
- Title: Image Compression with Product Quantized Masked Image Modeling
- Title(参考訳): 製品量子化マスク画像モデリングによる画像圧縮
- Authors: Alaaeldin El-Nouby, Matthew J. Muckley, Karen Ullrich, Ivan Laptev,
Jakob Verbeek, Herv\'e J\'egou
- Abstract要約: 最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
- 参考スコア(独自算出の注目度): 44.15706119017024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural compression methods have been based on the popular hyperprior
framework. It relies on Scalar Quantization and offers a very strong
compression performance. This contrasts from recent advances in image
generation and representation learning, where Vector Quantization is more
commonly employed. In this work, we attempt to bring these lines of research
closer by revisiting vector quantization for image compression. We build upon
the VQ-VAE framework and introduce several modifications. First, we replace the
vanilla vector quantizer by a product quantizer. This intermediate solution
between vector and scalar quantization allows for a much wider set of
rate-distortion points: It implicitly defines high-quality quantizers that
would otherwise require intractably large codebooks. Second, inspired by the
success of Masked Image Modeling (MIM) in the context of self-supervised
learning and generative image models, we propose a novel conditional entropy
model which improves entropy coding by modelling the co-dependencies of the
quantized latent codes. The resulting PQ-MIM model is surprisingly effective:
its compression performance on par with recent hyperprior methods. It also
outperforms HiFiC in terms of FID and KID metrics when optimized with
perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with
image generation frameworks, we show qualitatively that it can operate under a
hybrid mode between compression and generation, with no further training or
finetuning. As a result, we explore the extreme compression regime where an
image is compressed into 200 bytes, i.e., less than a tweet.
- Abstract(参考訳): 最近のニューラル圧縮法は、人気のあるhyperpriorフレームワークに基づいている。
Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。
これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
本研究では,画像圧縮のためのベクトル量子化を再考することにより,これらの研究線を近づけることを試みる。
VQ-VAEフレームワーク上に構築し、いくつかの修正を導入する。
まず、バニラベクトル量子化器を積量子化器で置き換える。
ベクトルとスカラー量子化の間の中間解は、より広い速度歪み点の集合を可能にする: 暗黙的に、非常に大きなコードブックを必要とする高品質な量子化器を定義する。
第二に、自己教師付き学習および生成画像モデルにおけるMasked Image Modeling(MIM)の成功に触発され、量子化潜在符号の共依存性をモデル化してエントロピー符号化を改善する条件付きエントロピーモデルを提案する。
結果として得られるPQ-MIMモデルは驚くほど効果的である。
また、知覚的損失(例えば、敵)に最適化された場合、FIDとKIDの指標でHiFiCを上回っている。
最後に、pq-mimは画像生成フレームワークと互換性があるので、さらなるトレーニングや微調整をすることなく、圧縮と生成のハイブリッドモードで動作できることを定性的に示します。
その結果、画像が200バイト、すなわち1ツイート未満に圧縮される、極端な圧縮方式を探求する。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文 参考訳(メタデータ) (2023-05-09T13:42:43Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。
自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。
本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文 参考訳(メタデータ) (2022-08-27T17:15:38Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。