Fugu-MT 論文翻訳(概要): Image Compression with Product Quantized Masked Image Modeling

論文の概要: Image Compression with Product Quantized Masked Image Modeling

arxiv url: http://arxiv.org/abs/2212.07372v2
Date: Mon, 6 Nov 2023 13:16:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 01:15:23.064696
Title: Image Compression with Product Quantized Masked Image Modeling
Title（参考訳）: 製品量子化マスク画像モデリングによる画像圧縮
Authors: Alaaeldin El-Nouby, Matthew J. Muckley, Karen Ullrich, Ivan Laptev, Jakob Verbeek, Herv\'e J\'egou
Abstract要約: 最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
参考スコア（独自算出の注目度）: 44.15706119017024
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.
Abstract（参考訳）: 最近のニューラル圧縮法は、人気のあるhyperpriorフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。本研究では,画像圧縮のためのベクトル量子化を再考することにより,これらの研究線を近づけることを試みる。 VQ-VAEフレームワーク上に構築し、いくつかの修正を導入する。まず、バニラベクトル量子化器を積量子化器で置き換える。ベクトルとスカラー量子化の間の中間解は、より広い速度歪み点の集合を可能にする: 暗黙的に、非常に大きなコードブックを必要とする高品質な量子化器を定義する。第二に、自己教師付き学習および生成画像モデルにおけるMasked Image Modeling(MIM)の成功に触発され、量子化潜在符号の共依存性をモデル化してエントロピー符号化を改善する条件付きエントロピーモデルを提案する。結果として得られるPQ-MIMモデルは驚くほど効果的である。また、知覚的損失(例えば、敵)に最適化された場合、FIDとKIDの指標でHiFiCを上回っている。最後に、pq-mimは画像生成フレームワークと互換性があるので、さらなるトレーニングや微調整をすることなく、圧縮と生成のハイブリッドモードで動作できることを定性的に示します。その結果、画像が200バイト、すなわち1ツイート未満に圧縮される、極端な圧縮方式を探求する。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
A Fast Quantum Image Compression Algorithm based on Taylor Expansion [0.0]
本研究では,パラメータ化量子回路内での量子画像圧縮アルゴリズムを改良する。本手法では,画像データをユニタリ演算子パラメータとして符号化し,暗号処理のエミュレートに量子コンパイルアルゴリズムを適用した。 Lenna や Cameraman などのベンチマーク画像による実験結果から,本手法は最大 86% の反復回数削減を実現していることがわかった。
論文参考訳（メタデータ） (2025-02-15T06:03:49Z)
Unifying Generation and Compression: Ultra-low bitrate Image Coding Via Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。 UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文参考訳（メタデータ） (2024-03-06T14:27:02Z)
Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文参考訳（メタデータ） (2024-01-15T15:54:54Z)
Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文参考訳（メタデータ） (2023-05-09T13:42:43Z)
High-Fidelity Variable-Rate Image Compression via Invertible Activation Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。 IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文参考訳（メタデータ） (2022-09-12T07:14:07Z)
Lossy Image Compression with Quantized Hierarchical VAEs [33.173021636656465]
ResNet VAEはもともとデータ(画像)の分散モデリングのために設計された。自然画像の損失圧縮における従来の手法より優れる、強力で効率的なモデルを提案する。本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
論文参考訳（メタデータ） (2022-08-27T17:15:38Z)
Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文参考訳（メタデータ） (2022-04-26T01:35:02Z)
Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文参考訳（メタデータ） (2022-03-21T11:44:17Z)
Entroformer: A Transformer-based Entropy Model for Learned Image Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文参考訳（メタデータ） (2022-02-11T08:03:31Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文参考訳（メタデータ） (2020-04-17T00:10:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。