論文の概要: Multiscale Augmented Normalizing Flows for Image Compression
- arxiv url: http://arxiv.org/abs/2305.05451v3
- Date: Wed, 22 May 2024 14:24:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-26 21:32:22.084507
- Title: Multiscale Augmented Normalizing Flows for Image Compression
- Title(参考訳): 画像圧縮のためのマルチスケール拡張正規化流れ
- Authors: Marc Windsheimer, Fabian Brand, André Kaup,
- Abstract要約: 本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
- 参考スコア(独自算出の注目度): 17.441496966834933
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most learning-based image compression methods lack efficiency for high image quality due to their non-invertible design. The decoding function of the frequently applied compressive autoencoder architecture is only an approximated inverse of the encoding transform. This issue can be resolved by using invertible latent variable models, which allow a perfect reconstruction if no quantization is performed. Furthermore, many traditional image and video coders apply dynamic block partitioning to vary the compression of certain image regions depending on their content. Inspired by this approach, hierarchical latent spaces have been applied to learning-based compression networks. In this paper, we present a novel concept, which adapts the hierarchical latent space for augmented normalizing flows, an invertible latent variable model. Our best performing model achieved average rate savings of more than 7% over comparable single-scale models.
- Abstract(参考訳): ほとんどの学習ベース画像圧縮法は、非可逆設計のため、高画質の効率を欠いている。
頻繁に適用される圧縮オートエンコーダアーキテクチャの復号関数は、符号化変換の近似逆数である。
この問題は可逆潜在変数モデルを用いることで解決できるため、量子化が行われなければ完全再構成が可能である。
さらに、多くの伝統的な画像およびビデオコーダは、動的ブロック分割を適用して、その内容に応じて特定の画像領域の圧縮を変化させる。
このアプローチにインスパイアされた階層型潜在空間は、学習に基づく圧縮ネットワークに適用されている。
本稿では,非可逆潜在変数モデルである高次正規化フローに階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
関連論文リスト
- Transferable Learned Image Compression-Resistant Adversarial
Perturbations [69.79762292033553]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Enhanced Invertible Encoding for Learned Image Compression [40.21904131503064]
本稿では,改良されたインバーチブルを提案する。
非可逆ニューラルネットワーク(INN)によるネットワークは、情報損失問題を大幅に軽減し、圧縮性を向上する。
Kodak, CLIC, Tecnick のデータセットによる実験結果から,本手法は既存の学習画像圧縮法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-08T17:32:10Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Lossy Image Compression with Normalizing Flows [19.817005399746467]
ディープ・イメージ・圧縮のための最先端のソリューションは、通常、入力を低次元の潜在空間にマッピングするオートエンコーダを用いる。
対照的に、画像圧縮における従来のアプローチは、より幅広い品質レベルを実現する。
論文 参考訳(メタデータ) (2020-08-24T14:46:23Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。