Fugu-MT 論文翻訳(概要): Lossy Image Compression with Quantized Hierarchical VAEs

論文の概要: Lossy Image Compression with Quantized Hierarchical VAEs

arxiv url: http://arxiv.org/abs/2208.13056v1
Date: Sat, 27 Aug 2022 17:15:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-30 13:35:04.081232
Title: Lossy Image Compression with Quantized Hierarchical VAEs
Title（参考訳）: 量子化階層vaesによる損失画像圧縮
Authors: Zhihao Duan, Ming Lu, Zhan Ma, Fengqing Zhu
Abstract要約: 本稿では,自然画像(ロッキー)圧縮における従来の手法よりも優れた画像コーダのクラスを提示する。本モデルでは,画像を粗大に圧縮し,並列符号化と復号化をサポートする。
参考スコア（独自算出の注目度）: 33.173021636656465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent work has shown a strong theoretical connection between variational autoencoders (VAEs) and the rate distortion theory. Motivated by this, we consider the problem of lossy image compression from the perspective of generative modeling. Starting from ResNet VAEs, which are originally designed for data (image) distribution modeling, we redesign their latent variable model using a quantization-aware posterior and prior, enabling easy quantization and entropy coding for image compression. Along with improved neural network blocks, we present a powerful and efficient class of lossy image coders, outperforming previous methods on natural image (lossy) compression. Our model compresses images in a coarse-to-fine fashion and supports parallel encoding and decoding, leading to fast execution on GPUs.
Abstract（参考訳）: 近年の研究では、変分オートエンコーダ(VAE)と速度歪み理論の強い関係が示されている。そこで本研究では,画像圧縮の問題点について,生成モデルの観点から考察する。データ(画像)分散モデリング用に当初設計されたresnet vaesを出発点として,量子化アウェアの後方および前後を用いた潜在変数モデルの再設計を行い,画像圧縮のための量子化およびエントロピー符号化を容易に行えるようにした。ニューラルネットワークブロックの改良とともに,従来の自然画像圧縮法(lossy)よりも優れる,高能率で効率的なロス画像符号化方式を提案する。本モデルでは,画像を粗い方法で圧縮し,並列エンコーディングとデコードをサポートし,gpu上での実行を高速化する。

関連論文リスト

Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文参考訳（メタデータ） (2023-05-09T13:42:43Z)
Image Compression with Product Quantized Masked Image Modeling [44.15706119017024]
最近のニューラル圧縮法は、人気のあるハイパープライアフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。
論文参考訳（メタデータ） (2022-12-14T17:50:39Z)
Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。 VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文参考訳（メタデータ） (2022-09-14T21:53:27Z)
Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文参考訳（メタデータ） (2022-07-09T19:07:43Z)
Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文参考訳（メタデータ） (2022-04-26T01:35:02Z)
The Devil Is in the Details: Window-based Attention for Image Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文参考訳（メタデータ） (2022-03-16T07:55:49Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文参考訳（メタデータ） (2021-04-21T14:03:05Z)
Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文参考訳（メタデータ） (2020-08-20T20:01:59Z)
Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文参考訳（メタデータ） (2020-04-17T00:10:08Z)
Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文参考訳（メタデータ） (2020-02-10T13:13:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。