論文の概要: Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation
- arxiv url: http://arxiv.org/abs/2209.03353v1
- Date: Wed, 7 Sep 2022 08:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:29:46.698886
- Title: Learned Image Compression with Generalized Octave Convolution and
Cross-Resolution Parameter Estimation
- Title(参考訳): 一般化オクターブ畳み込みとクロスレゾリューションパラメータ推定による学習画像圧縮
- Authors: Haisheng Fu, Feng Liang
- Abstract要約: 本稿では,オクターブの畳み込みを利用して,遅延表現を高分解能 (HR) と低分解能 (LR) に分解する多分解能画像圧縮フレームワークを提案する。
実験結果から,本手法は,最先端の学習画像圧縮法と比較して,復号時間を約73.35 %,93.44 %削減できることがわかった。
- 参考スコア(独自算出の注目度): 5.238765582868391
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of the context-adaptive entropy model significantly improves
the rate-distortion (R-D) performance, in which hyperpriors and autoregressive
models are jointly utilized to effectively capture the spatial redundancy of
the latent representations. However, the latent representations still contain
some spatial correlations. In addition, these methods based on the
context-adaptive entropy model cannot be accelerated in the decoding process by
parallel computing devices, e.g. FPGA or GPU. To alleviate these limitations,
we propose a learned multi-resolution image compression framework, which
exploits the recently developed octave convolutions to factorize the latent
representations into the high-resolution (HR) and low-resolution (LR) parts,
similar to wavelet transform, which further improves the R-D performance. To
speed up the decoding, our scheme does not use context-adaptive entropy model.
Instead, we exploit an additional hyper layer including hyper encoder and hyper
decoder to further remove the spatial redundancy of the latent representation.
Moreover, the cross-resolution parameter estimation (CRPE) is introduced into
the proposed framework to enhance the flow of information and further improve
the rate-distortion performance. An additional information-fidelity loss is
proposed to the total loss function to adjust the contribution of the LR part
to the final bit stream. Experimental results show that our method separately
reduces the decoding time by approximately 73.35 % and 93.44 % compared with
that of state-of-the-art learned image compression methods, and the R-D
performance is still better than H.266/VVC(4:2:0) and some learning-based
methods on both PSNR and MS-SSIM metrics across a wide bit rates.
- Abstract(参考訳): 文脈適応エントロピーモデルの適用により、遅延表現の空間的冗長性を効果的に捉えるために、高次モデルと自己回帰モデルとを併用したレート歪み(R-D)性能が大幅に向上する。
しかし、潜在表現は依然としていくつかの空間相関を含む。
さらに、文脈適応エントロピーモデルに基づくこれらの手法は、FPGAやGPUのような並列コンピューティングデバイスによってデコードプロセスにおいて加速できない。
これらの制約を緩和するために、最近開発されたオクターブ畳み込みを利用して、ウェーブレット変換と同様の高分解能(HR)と低分解能(LR)の表現を分解し、R-D性能をさらに向上させる多分解能画像圧縮フレームワークを提案する。
復号化を高速化するため,提案手法では文脈適応エントロピーモデルを使用しない。
代わりに、ハイパーエンコーダとハイパーデコーダを含む追加のハイパー層を利用して、潜在表現の空間的冗長性をさらに除去する。
さらに,提案フレームワークにクロスレゾリューションパラメータ推定(crpe)を導入することにより,情報の流れが向上し,さらに速度分散性能が向上する。
LR部分の最終的なビットストリームへの寄与を調整するために、全損失関数に付加的な情報忠実度損失を提案する。
実験結果から,本手法は最先端学習画像圧縮法に比べ,約73.35 %,93.44 %の復号時間を別々に削減し,r-d性能はh.266/vvc(4:2:0)やpsnrとms-ssimメトリクスの学習ベース手法よりも高い値を示した。
関連論文リスト
- Mitigating Data Consistency Induced Discrepancy in Cascaded Diffusion Models for Sparse-view CT Reconstruction [4.227116189483428]
本研究は, 離散性緩和フレームワークを用いた新規なカスケード拡散について紹介する。
潜在空間の低画質画像生成と画素空間の高画質画像生成を含む。
これは、いくつかの推論ステップをピクセル空間から潜在空間に移すことによって計算コストを最小化する。
論文 参考訳(メタデータ) (2024-03-14T12:58:28Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - ResShift: Efficient Diffusion Model for Image Super-resolution by
Residual Shifting [70.83632337581034]
拡散に基づく画像超解像法(SR)は主に低推論速度によって制限される。
本稿では,SRの拡散段数を大幅に削減する新しい,効率的な拡散モデルを提案する。
本手法は,残差をシフトすることで高分解能画像と低分解能画像の間を移動させるマルコフ連鎖を構成する。
論文 参考訳(メタデータ) (2023-07-23T15:10:02Z) - ACDMSR: Accelerated Conditional Diffusion Models for Single Image
Super-Resolution [84.73658185158222]
本稿では,ACDMSRと呼ばれる拡散モデルに基づく超解像法を提案する。
提案手法は, 決定論的反復分解過程を通じて超解像を行うために, 標準拡散モデルに適応する。
提案手法は,低解像度画像に対してより視覚的に現実的な表現を生成し,現実的なシナリオにおけるその有効性を強調した。
論文 参考訳(メタデータ) (2023-07-03T06:49:04Z) - LLIC: Large Receptive Field Transform Coding with Adaptive Weights for
Learned Image Compression [27.02281402358164]
学習画像圧縮(LLIC)のための適応重み付き大規模受容場変換符号化を提案する。
学習した画像圧縮コミュニティではじめて、控えめな複雑さを維持しながら冗長性を高めるために、カーネルベースの奥行きに関する大規模な畳み込みを導入しました。
また,大規模カーネルの潜在能力を十分に活用するために,改良されたトレーニング手法についても検討した。
論文 参考訳(メタデータ) (2023-04-19T11:19:10Z) - DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image
Super-Resolution [15.694407977871341]
実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に重点を置いている。
既存の手法は、分解レベルが異なる低解像度(LR)画像を強化するために重いSRモデルに依存している。
本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。
論文 参考訳(メタデータ) (2022-12-15T04:34:57Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。