論文の概要: ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression
- arxiv url: http://arxiv.org/abs/2307.06342v1
- Date: Wed, 12 Jul 2023 11:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 16:56:22.797794
- Title: ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression
- Title(参考訳): ConvNeXt-ChARM: 効率的なニューラルネットワーク圧縮のためのConvNeXtベースの変換
- Authors: Ahmed Ghorbel, Wassim Hamidouche and Luce Morin
- Abstract要約: ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
- 参考スコア(独自算出の注目度): 18.05997169440533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the last few years, neural image compression has gained wide attention
from research and industry, yielding promising end-to-end deep neural codecs
outperforming their conventional counterparts in rate-distortion performance.
Despite significant advancement, current methods, including attention-based
transform coding, still need to be improved in reducing the coding rate while
preserving the reconstruction fidelity, especially in non-homogeneous textured
image areas. Those models also require more parameters and a higher decoding
time. To tackle the above challenges, we propose ConvNeXt-ChARM, an efficient
ConvNeXt-based transform coding framework, paired with a compute-efficient
channel-wise auto-regressive prior to capturing both global and local contexts
from the hyper and quantized latent representations. The proposed architecture
can be optimized end-to-end to fully exploit the context information and
extract compact latent representation while reconstructing higher-quality
images. Experimental results on four widely-used datasets showed that
ConvNeXt-ChARM brings consistent and significant BD-rate (PSNR) reductions
estimated on average to 5.24% and 1.22% over the versatile video coding (VVC)
reference encoder (VTM-18.0) and the state-of-the-art learned image compression
method SwinT-ChARM, respectively. Moreover, we provide model scaling studies to
verify the computational efficiency of our approach and conduct several
objective and subjective analyses to bring to the fore the performance gap
between the next generation ConvNet, namely ConvNeXt, and Swin Transformer.
- Abstract(参考訳): ここ数年、ニューラル画像圧縮は研究や産業から広く注目を集め、将来性のあるエンドツーエンドのディープ・ニューラル・コーデックが従来の速度歪曲性能よりも優れていた。
大幅な進歩にもかかわらず、特に非均一なテクスチャ画像領域において、アテンションベースの変換符号化を含む現在の手法は、再構成忠実性を維持しながら符号化率を低下させる必要がある。
これらのモデルはより多くのパラメータと高い復号時間を必要とする。
このような課題に対処するため,我々は,ハイパーおよび量子化された潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャする前に,計算効率のよいチャネルワイド自動回帰と組み合わせた効率的なConvNeXt-ChARMを提案する。
提案アーキテクチャは、コンテキスト情報を完全に活用し、高品質な画像を再構成しながらコンパクトな潜在表現を抽出するために、エンドツーエンドに最適化することができる。
広く使われている4つのデータセットの実験結果から、ConvNeXt-ChARMは平均で5.24%と1.22%と、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法SwinT-ChARMに対して、一貫性と有意なBDレート(PSNR)の低下をもたらすことが示された。
さらに,本手法の計算効率を検証するためのモデルスケーリング研究を行い,次世代ConvNet,すなわちConvNeXtとSwin Transformerのパフォーマンスギャップを先導するために,いくつかの客観的および主観的分析を行う。
関連論文リスト
- Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。