論文の概要: A Cross Channel Context Model for Latents in Deep Image Compression
- arxiv url: http://arxiv.org/abs/2103.02884v1
- Date: Thu, 4 Mar 2021 08:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:49:38.079488
- Title: A Cross Channel Context Model for Latents in Deep Image Compression
- Title(参考訳): 深部画像圧縮におけるレイテンシのクロスチャネルコンテキストモデル
- Authors: Changyue Ma, Zhao Wang, Ruling Liao, Yan Ye
- Abstract要約: 本稿では,深部画像圧縮における潜伏者に対するクロスチャネルコンテキストモデルを提案する。
提案モデルは共同自己回帰型および階層型先行エントロピーモデルと組み合わされる。
歪み計量としてPSNRを用いると、合成モデルはベースラインエントロピーモデルに対して6.30%と6.31%のBDレートの減少を達成する。
- 参考スコア(独自算出の注目度): 10.20672454399047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a cross channel context model for latents in deep image
compression. Generally, deep image compression is based on an autoencoder
framework, which transforms the original image to latents at the encoder and
recovers the reconstructed image from the quantized latents at the decoder. The
transform is usually combined with an entropy model, which estimates the
probability distribution of the quantized latents for arithmetic coding.
Currently, joint autoregressive and hierarchical prior entropy models are
widely adopted to capture both the global contexts from the hyper latents and
the local contexts from the quantized latent elements. For the local contexts,
the widely adopted 2D mask convolution can only capture the spatial context.
However, we observe that there are strong correlations between different
channels in the latents. To utilize the cross channel correlations, we propose
to divide the latents into several groups according to channel index and code
the groups one by one, where previously coded groups are utilized to provide
cross channel context for the current group. The proposed cross channel context
model is combined with the joint autoregressive and hierarchical prior entropy
model. Experimental results show that, using PSNR as the distortion metric, the
combined model achieves BD-rate reductions of 6.30% and 6.31% over the baseline
entropy model, and 2.50% and 2.20% over the latest video coding standard
Versatile Video Coding (VVC) for the Kodak and CVPR CLIC2020 professional
dataset, respectively. In addition, when optimized for the MS-SSIM metric, our
approach generates visually more pleasant reconstructed images.
- Abstract(参考訳): 本稿では,深部画像圧縮における潜伏者に対するクロスチャネルコンテキストモデルを提案する。
一般的に、深い画像圧縮は自動エンコーダフレームワークに基づいており、元の画像はエンコーダで潜入し、復号器で量子化された潜伏から復元された画像を回復する。
変換は通常エントロピーモデルと組み合わされ、算術符号化のための量子化された潜みの確率分布を推定する。
現在、共同自己回帰的および階層的先行エントロピーモデルが広く採用され、ハイパーレイトからのグローバルコンテキストと量子化されたレイト要素からのローカルコンテキストの両方をキャプチャする。
ローカルコンテキストでは、広く採用されている2Dマスク畳み込みは、空間コンテキストのみをキャプチャできる。
しかし, 異なるチャネル間に強い相関関係があることが観察された。
クロスチャネル相関を利用するため,本手法では,チャネルインデックスに従って潜伏者を複数のグループに分割し,そのグループを1つずつコード化する。
提案するクロスチャネルコンテキストモデルは自己回帰モデルと階層的事前エントロピーモデルを組み合わせたものである。
実験結果は、PSNRを歪みメトリックとして使用することにより、ベースラインエントロピーモデルよりも6.30%と6.31%のBDレート削減を達成し、KodakおよびCVPR CLIC2020プロフェッショナルデータセット用の最新のビデオコーディング標準のVVC(Versatile Video Coding)に対して2.50%と2.20%を達成した。
また,MS-SSIMに最適化した場合,より快適な再構成画像を生成する。
関連論文リスト
- Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文 参考訳(メタデータ) (2023-05-09T13:42:43Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。