論文の概要: Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation
- arxiv url: http://arxiv.org/abs/2209.03353v1
- Date: Wed, 7 Sep 2022 08:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:29:46.698886
- Title: Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation
- Title(参考訳): 一般化オクターブ畳み込みとクロスレゾリューションパラメータ推定による学習画像圧縮
- Authors: Haisheng Fu, Feng Liang
- Abstract要約: 本稿では,オクターブの畳み込みを利用して,遅延表現を高分解能 (HR) と低分解能 (LR) に分解する多分解能画像圧縮フレームワークを提案する。
実験結果から,本手法は,最先端の学習画像圧縮法と比較して,復号時間を約73.35 %,93.44 %削減できることがわかった。
- 参考スコア(独自算出の注目度): 5.238765582868391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of the context-adaptive entropy model significantly improves
the rate-distortion (R-D) performance, in which hyperpriors and autoregressive
models are jointly utilized to effectively capture the spatial redundancy of
the latent representations. However, the latent representations still contain
some spatial correlations. In addition, these methods based on the
context-adaptive entropy model cannot be accelerated in the decoding process by
parallel computing devices, e.g. FPGA or GPU. To alleviate these limitations,
we propose a learned multi-resolution image compression framework, which
exploits the recently developed octave convolutions to factorize the latent
representations into the high-resolution (HR) and low-resolution (LR) parts,
similar to wavelet transform, which further improves the R-D performance. To
speed up the decoding, our scheme does not use context-adaptive entropy model.
Instead, we exploit an additional hyper layer including hyper encoder and hyper
decoder to further remove the spatial redundancy of the latent representation.
Moreover, the cross-resolution parameter estimation (CRPE) is introduced into
the proposed framework to enhance the flow of information and further improve
the rate-distortion performance. An additional information-fidelity loss is
proposed to the total loss function to adjust the contribution of the LR part
to the final bit stream. Experimental results show that our method separately
reduces the decoding time by approximately 73.35 % and 93.44 % compared with
that of state-of-the-art learned image compression methods, and the R-D
performance is still better than H.266/VVC(4:2:0) and some learning-based
methods on both PSNR and MS-SSIM metrics across a wide bit rates.
- Abstract(参考訳): 文脈適応エントロピーモデルの適用により、遅延表現の空間的冗長性を効果的に捉えるために、高次モデルと自己回帰モデルとを併用したレート歪み(R-D)性能が大幅に向上する。
しかし、潜在表現は依然としていくつかの空間相関を含む。
さらに、文脈適応エントロピーモデルに基づくこれらの手法は、FPGAやGPUのような並列コンピューティングデバイスによってデコードプロセスにおいて加速できない。
これらの制約を緩和するために、最近開発されたオクターブ畳み込みを利用して、ウェーブレット変換と同様の高分解能(HR)と低分解能(LR)の表現を分解し、R-D性能をさらに向上させる多分解能画像圧縮フレームワークを提案する。
復号化を高速化するため,提案手法では文脈適応エントロピーモデルを使用しない。
代わりに、ハイパーエンコーダとハイパーデコーダを含む追加のハイパー層を利用して、潜在表現の空間的冗長性をさらに除去する。
さらに,提案フレームワークにクロスレゾリューションパラメータ推定(crpe)を導入することにより,情報の流れが向上し,さらに速度分散性能が向上する。
LR部分の最終的なビットストリームへの寄与を調整するために、全損失関数に付加的な情報忠実度損失を提案する。
実験結果から,本手法は最先端学習画像圧縮法に比べ,約73.35 %,93.44 %の復号時間を別々に削減し,r-d性能はh.266/vvc(4:2:0)やpsnrとms-ssimメトリクスの学習ベース手法よりも高い値を示した。
関連論文リスト
- Test-time adaptation for image compression with distribution regularization [43.490138269939344]
簡単なベイズ近似によるテキスト分布正規化を導入し、プラグアンドプレイ方式でより優れた関節確率近似を学習する。
提案手法は, 既存のTTA-IC法に柔軟に統合し, 漸進的な利点を生かしてR-D性能を向上する。
論文 参考訳(メタデータ) (2024-10-16T03:25:16Z) - Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Efficient Real-world Image Super-Resolution Via Adaptive Directional Gradient Convolution [80.85121353651554]
畳み込みカーネル内でのカーネル単位の微分演算を導入し、学習可能な方向勾配畳み込みを開発する。
これらの畳み込みは、新しい線形重み付け機構と平行に統合され、適応方向勾配畳み込み(DGConv)を形成する。
さらに,適応情報相互作用ブロック(AIIBlock)を設計し,テクスチャとコントラストの強化のバランスをとるとともに,相互依存性を慎重に検討し,単純な積み重ねによるリアルSRのためのDGPNetを作成する。
論文 参考訳(メタデータ) (2024-05-11T14:21:40Z) - Adaptive Semantic-Enhanced Denoising Diffusion Probabilistic Model for Remote Sensing Image Super-Resolution [7.252121550658619]
Denoising Diffusion Probabilistic Model (DDPM) は画像再構成において有望な性能を示した。
DDPMが生成する高周波の詳細は、モデルが長距離の意味的文脈を見落としているため、HR画像との不一致に悩まされることが多い。
DDPMの詳細な保存能力を高めるために,適応的意味強化DDPM(ASDDPM)を提案する。
論文 参考訳(メタデータ) (2024-03-17T04:08:58Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for Learned Image Compression [27.02281402358164]
学習画像圧縮のための適応重み付き大規模受容場変換符号化を提案する。
カーネルをベースとした奥行きに関する大規模な畳み込みを導入し,複雑さを抑えながら冗長性を向上する。
我々のLLICモデルは最先端のパフォーマンスを実現し、パフォーマンスと複雑さのトレードオフを改善する。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image
Super-Resolution [15.694407977871341]
実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に重点を置いている。
既存の手法は、分解レベルが異なる低解像度(LR)画像を強化するために重いSRモデルに依存している。
本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。
論文 参考訳(メタデータ) (2022-12-15T04:34:57Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - Uncovering the Over-smoothing Challenge in Image Super-Resolution: Entropy-based Quantification and Contrastive Optimization [67.99082021804145]
我々はDetail Enhanced Contrastive Loss (DECLoss)と呼ばれるCOO問題に対する明確な解決策を提案する。
DECLossはコントラスト学習のクラスタリング特性を利用して、潜在的な高分解能分布の分散を直接的に低減する。
我々は複数の超高解像度ベンチマーク上でDECLosを評価し,PSNR指向モデルの知覚品質を向上させることを実証した。
論文 参考訳(メタデータ) (2022-01-04T08:30:09Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。