論文の概要: Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules
- arxiv url: http://arxiv.org/abs/2107.06463v3
- Date: Fri, 9 Feb 2024 19:23:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 20:31:40.476386
- Title: Learned Image Compression with Gaussian-Laplacian-Logistic Mixture Model
and Concatenated Residual Modules
- Title(参考訳): ガウス-ラプラシア-ロジスティック混合モデルと連結残差モジュールによる学習画像圧縮
- Authors: Haisheng Fu and Feng Liang and Jianping Lin and Bing Li and Mohammad
Akbari and Jie Liang and Guohe Zhang and Dong Liu and Chengjie Tu and
Jingning Han
- Abstract要約: 学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
本稿では,よりフレキシブルなガウス・ラプラシア・ロジスティック混合モデル(GLLMM)を提案する。
符号化/復号化ネットワーク設計部では、複数の残差ブロックを追加のショートカット接続で直列接続する残差ブロック(CRB)を提案する。
- 参考スコア(独自算出の注目度): 22.818632387206257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently deep learning-based image compression methods have achieved
significant achievements and gradually outperformed traditional approaches
including the latest standard Versatile Video Coding (VVC) in both PSNR and
MS-SSIM metrics. Two key components of learned image compression are the
entropy model of the latent representations and the encoding/decoding network
architectures. Various models have been proposed, such as autoregressive,
softmax, logistic mixture, Gaussian mixture, and Laplacian. Existing schemes
only use one of these models. However, due to the vast diversity of images, it
is not optimal to use one model for all images, even different regions within
one image. In this paper, we propose a more flexible discretized
Gaussian-Laplacian-Logistic mixture model (GLLMM) for the latent
representations, which can adapt to different contents in different images and
different regions of one image more accurately and efficiently, given the same
complexity. Besides, in the encoding/decoding network design part, we propose a
concatenated residual blocks (CRB), where multiple residual blocks are serially
connected with additional shortcut connections. The CRB can improve the
learning ability of the network, which can further improve the compression
performance. Experimental results using the Kodak, Tecnick-100 and Tecnick-40
datasets show that the proposed scheme outperforms all the leading
learning-based methods and existing compression standards including VVC intra
coding (4:4:4 and 4:2:0) in terms of the PSNR and MS-SSIM. The source code is
available at \url{https://github.com/fengyurenpingsheng}
- Abstract(参考訳): 近年、深層学習に基づく画像圧縮手法は大きな成果を上げ、psnrとms-ssimメトリクスの両方で最新のvvc(standard versatile video coding)を含む従来のアプローチを徐々に上回っている。
学習画像圧縮の2つの重要な要素は、潜在表現のエントロピーモデルと符号化/復号化ネットワークアーキテクチャである。
自己回帰、ソフトマックス、ロジスティック混合、ガウス混合、ラプラシアンなど様々なモデルが提案されている。
既存のスキームはこれらのモデルの1つしか使用していない。
しかし,画像の多様性が多様であるため,画像内の異なる領域であっても,すべての画像に対して1つのモデルを使用するのが最適ではない。
本稿では,異なる画像の異なるコンテンツと1つの画像の異なる領域に適応可能な,より柔軟に離散化されたガウス・ラプラシア・ロジスティック混合モデル(gllmm)を提案する。
さらに、符号化/復号化ネットワーク設計部では、複数の残余ブロックを追加のショートカット接続で直列接続する連結残差ブロック(CRB)を提案する。
CRBはネットワークの学習能力を向上させることができ、圧縮性能をさらに向上させることができる。
Kodak, Tecnick-100, Tecnick-40 のデータセットを用いた実験結果から,提案手法はPSNR と MS-SSIM の観点から,VVC のイントラコーディング (4:4:4 と 4:2:0) を含む主要な学習手法や既存の圧縮標準よりも優れていた。
ソースコードは \url{https://github.com/fengyurenpingsheng} で入手できる。
関連論文リスト
- Exploiting Inter-Image Similarity Prior for Low-Bitrate Remote Sensing Image Compression [10.427300958330816]
生成された離散コードブックを用いたコードブックベースのRS画像圧縮(Code-RSIC)手法を提案する。
このコードは、知覚品質の観点から、最先端の伝統と学習に基づく画像圧縮アルゴリズムを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-17T03:33:16Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Lossless Compression with Latent Variable Models [4.289574109162585]
我々は「非対称数値系を持つビットバック」(bb-ans)と呼ぶ潜在変数モデルを用いる。
この方法は、エンコードおよびデコードステップをインターリーブし、データのバッチ圧縮時に最適なレートを達成する。
我々は,深層生成モデルを用いた圧縮の高速プロトタイピングのために開発したモジュール型ソフトウェアフレームワークである'craystack'について述べる。
論文 参考訳(メタデータ) (2021-04-21T14:03:05Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Deep Learning-based Image Compression with Trellis Coded Quantization [13.728517700074423]
本稿では、深層学習に基づく画像圧縮フレームワークにトレリス符号化量子化器(TCQ)を組み込むことを提案する。
トレーニング中のバック伝搬を可能にするソフト・ツー・ハード戦略が適用される。
我々は,3つのワーク(エンコーダ,デコーダ,エントロピー推定)からなる単純な画像圧縮モデルを開発し,すべてのコンポーネントをエンドツーエンドに最適化する。
論文 参考訳(メタデータ) (2020-01-26T08:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。