論文の概要: Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression
- arxiv url: http://arxiv.org/abs/2503.21284v1
- Date: Thu, 27 Mar 2025 09:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:22.095916
- Title: Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression
- Title(参考訳): 広帯域可変画像圧縮のためのマルチスケール可逆ニューラルネットワーク
- Authors: Hanyue Tu, Siqi Wu, Li Li, Wengang Zhou, Houqiang Li,
- Abstract要約: オートエンコーダをベースとした構造が,近年の学習画像圧縮手法を支配している。
これらの制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
特に,本手法は,1つのモデルを用いて,VVCを非常に幅広いビットレートで高速化する,最初の学習画像圧縮ソリューションである。
- 参考スコア(独自算出の注目度): 90.59962443790593
- License:
- Abstract: Autoencoder-based structures have dominated recent learned image compression methods. However, the inherent information loss associated with autoencoders limits their rate-distortion performance at high bit rates and restricts their flexibility of rate adaptation. In this paper, we present a variable-rate image compression model based on invertible transform to overcome these limitations. Specifically, we design a lightweight multi-scale invertible neural network, which bijectively maps the input image into multi-scale latent representations. To improve the compression efficiency, a multi-scale spatial-channel context model with extended gain units is devised to estimate the entropy of the latent representation from high to low levels. Experimental results demonstrate that the proposed method achieves state-of-the-art performance compared to existing variable-rate methods, and remains competitive with recent multi-model approaches. Notably, our method is the first learned image compression solution that outperforms VVC across a very wide range of bit rates using a single model, especially at high bit rates.The source code is available at \href{https://github.com/hytu99/MSINN-VRLIC}{https://github.com/hytu99/MSINN-VRLIC}.
- Abstract(参考訳): オートエンコーダをベースとした構造が,近年の学習画像圧縮手法を支配している。
しかし、オートエンコーダに関連する固有情報損失は、高いビットレートでのレート歪み性能を制限し、レート適応の柔軟性を制限する。
本稿では,これらの制約を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像を多スケール潜在表現に客観的にマッピングする軽量なマルチスケール非可逆ニューラルネットワークを設計する。
圧縮効率を向上させるため、拡張利得単位を持つマルチスケール空間チャネルコンテキストモデルを構築し、潜在表現のエントロピーを高レベルから低レベルに推定する。
実験により,提案手法は既存の可変レート法と比較して最先端の性能を達成し,近年のマルチモデル手法と競合することを示す。
特に,本手法は,単一のモデル,特に高ビットレートを用いて,VVCを非常に幅広いビットレートで性能向上させる最初の学習画像圧縮ソリューションであり,ソースコードは \href{https://github.com/hytu99/MSINN-VRLIC}{https://github.com/hytu99/MSINN-VRLIC} で公開されている。
関連論文リスト
- VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文 参考訳(メタデータ) (2023-05-09T13:42:43Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Lossless Image Compression Using a Multi-Scale Progressive Statistical
Model [16.58692559039154]
画素単位の自己回帰統計モデルに基づく手法は優れた性能を示した。
本稿では,画素ワイズアプローチとマルチスケールアプローチを利用したマルチスケールプログレッシブ統計モデルを提案する。
論文 参考訳(メタデータ) (2021-08-24T07:33:13Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。