論文の概要: Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering
- arxiv url: http://arxiv.org/abs/2206.10618v1
- Date: Tue, 21 Jun 2022 09:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 16:13:47.372875
- Title: Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering
- Title(参考訳): マルチスケール残差ブロック, 重要度マップ, ポスト量子化フィルタを用いた非対称学習画像圧縮
- Authors: Haisheng Fu, Feng Liang, Jie Liang, Binglin Li, Guohe Zhang, Jingning
Han
- Abstract要約: ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.056672221375104
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep learning-based image compression has made signifcant
progresses, and has achieved better ratedistortion (R-D) performance than the
latest traditional method, H.266/VVC, in both subjective metric and the more
challenging objective metric. However, a major problem is that many leading
learned schemes cannot maintain a good trade-off between performance and
complexity. In this paper, we propose an effcient and effective image coding
framework, which achieves similar R-D performance with lower complexity than
the state of the art. First, we develop an improved multi-scale residual block
(MSRB) that can expand the receptive feld and is easier to obtain global
information. It can further capture and reduce the spatial correlation of the
latent representations. Second, a more advanced importance map network is
introduced to adaptively allocate bits to different regions of the image.
Third, we apply a 2D post-quantization flter (PQF) to reduce the quantization
error, motivated by the Sample Adaptive Offset (SAO) flter in video coding.
Moreover, We fnd that the complexity of encoder and decoder have different
effects on image compression performance. Based on this observation, we design
an asymmetric paradigm, in which the encoder employs three stages of MSRBs to
improve the learning capacity, whereas the decoder only needs one stage of MSRB
to yield satisfactory reconstruction, thereby reducing the decoding complexity
without sacrifcing performance. Experimental results show that compared to the
state-of-the-art method, the encoding and decoding time of the proposed method
are about 17 times faster, and the R-D performance is only reduced by less than
1% on both Kodak and Tecnick datasets, which is still better than
H.266/VVC(4:4:4) and other recent learning-based methods. Our source code is
publicly available at https://github.com/fengyurenpingsheng.
- Abstract(参考訳): 近年,深層学習に基づく画像圧縮が進歩し,従来の手法であるH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
しかし、主要な問題は、多くの主要な学習スキームが、パフォーマンスと複雑さの間の良いトレードオフを維持することができないことである。
本稿では,より複雑なR-D性能を実現するための,効率的かつ効果的な画像符号化フレームワークを提案する。
まず, マルチスケール残差ブロック(MSRB)を改良し, 受容差を拡大し, グローバルな情報を得るのが容易になった。
潜在表現の空間的相関をさらに捉え、低減することができる。
第2に、画像の異なる領域に適応的にビットを割り当てるために、より高度な重要度マップネットワークが導入される。
第3に、ビデオ符号化におけるサンプル適応オフセット(SAO)フラッターによる量子化誤差を低減するために、PQF (2D post-quantization flter) を適用する。
さらに,エンコーダとデコーダの複雑さは画像圧縮性能に異なる影響を与えることがわかった。
この観測に基づいて、符号化者は学習能力を向上させるためにMSRBの3段階を使用する非対称なパラダイムを設計し、一方デコーダは良好な再構成を得るためにMSRBの1段階のみを必要とするため、性能を損なうことなく復号の複雑さを低減できる。
実験結果から,提案手法の符号化と復号処理は最先端の手法と比較して約17倍高速であり,H.266/VVC(4:4:4)および他の最近の学習ベース手法よりもまだ優れているKodakおよびTecnickデータセットにおいて,R-D性能は1%以下に低下することがわかった。
ソースコードはhttps://github.com/fengyurenpingsheng.comで公開されている。
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。
本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。
提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文 参考訳(メタデータ) (2023-02-18T14:40:07Z) - Rank-Enhanced Low-Dimensional Convolution Set for Hyperspectral Image
Denoising [50.039949798156826]
本稿では,ハイパースペクトル(HS)画像の難解化問題に対処する。
ランク付き低次元畳み込み集合(Re-ConvSet)を提案する。
次に、Re-ConvSetを広く使われているU-Netアーキテクチャに組み込んで、HS画像復号法を構築する。
論文 参考訳(メタデータ) (2022-07-09T13:35:12Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Modeling Image Quantization Tradeoffs for Optimal Compression [0.0]
ロスシー圧縮アルゴリズムは、圧縮率を上げるために高周波データを定量化することでトレードオフを狙う。
本稿では,Deep Learningとminimax損失関数を用いた量子化テーブルの最適化手法を提案する。
論文 参考訳(メタデータ) (2021-12-14T07:35:22Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Checkerboard Context Model for Efficient Learned Image Compression [6.376339829493938]
学習された画像圧縮のために、オートレグレッシブコンテキストモデルは、レート歪み(RD)のパフォーマンスを改善するのに効果的である。
本稿では,並列化可能なチェッカーボードコンテキストモデル(CCM)を提案する。
実験では,復号処理を40回以上高速化し,ほぼ同じ速度歪み性能で計算効率を大幅に向上させた。
論文 参考訳(メタデータ) (2021-03-29T03:25:41Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。