論文の概要: Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression
- arxiv url: http://arxiv.org/abs/2409.12719v1
- Date: Thu, 19 Sep 2024 12:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 13:45:42.533600
- Title: Multi-Scale Feature Prediction with Auxiliary-Info for Neural Image Compression
- Title(参考訳): ニューラルネットワーク圧縮のための補助情報を用いたマルチスケール特徴予測
- Authors: Chajin Shin, Sangjin Lee, Sangyoun Lee,
- Abstract要約: 本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
我々のモデルは、他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49%高い速度歪み性能を実現している。
- 参考スコア(独自算出の注目度): 13.076563599765176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, significant improvements in rate-distortion performance of image compression have been achieved with deep-learning techniques. A key factor in this success is the use of additional bits to predict an approximation of the latent vector, which is the output of the encoder, through another neural network. Then, only the difference between the prediction and the latent vector is coded into the bitstream, along with its estimated probability distribution. We introduce a new predictive structure consisting of the auxiliary coarse network and the main network, inspired by neural video compression. The auxiliary coarse network encodes the auxiliary information and predicts the approximation of the original image as multi-scale features. The main network encodes the residual between the predicted feature from the auxiliary coarse network and the feature of the original image. To further leverage our new structure, we propose Auxiliary info-guided Feature Prediction (AFP) module that uses global correlation to predict more accurate predicted features. Moreover, we present Context Junction module that refines the auxiliary feature from AFP module and produces the residuals between the refined features and the original image features. Finally, we introduce Auxiliary info-guided Parameter Estimation (APE) module, which predicts the approximation of the latent vector and estimates the probability distribution of these residuals. We demonstrate the effectiveness of the proposed modules by various ablation studies. Under extensive experiments, our model outperforms other neural image compression models and achieves a 19.49\% higher rate-distortion performance than VVC on Tecnick dataset.
- Abstract(参考訳): 近年,深層学習技術により画像圧縮の速度歪み性能が大幅に向上した。
この成功の重要な要因は、別のニューラルネットワークを通じてエンコーダの出力である潜在ベクトルの近似を予測するために追加ビットを使用することである。
そして、予測と潜伏ベクトルの差のみを推定確率分布とともにビットストリームに符号化する。
本稿では,ニューラルビデオ圧縮にインスパイアされた補助粗いネットワークと主ネットワークからなる新しい予測構造を導入する。
補助粗いネットワークは補助情報を符号化し、原画像の近似をマルチスケールの特徴として予測する。
主ネットワークは、補助粗いネットワークから予測された特徴と原画像の特徴との間の残差を符号化する。
我々の新しい構造をさらに活用するために,グローバル相関を用いてより正確な予測特徴を予測する補助情報誘導特徴予測(AFP)モジュールを提案する。
さらに、AFPモジュールから補助機能を洗練し、改良された特徴と元の画像特徴との間の残差を生成するContext Junctionモジュールを提案する。
最後に、潜在ベクトルの近似を予測し、これらの残差の確率分布を推定する補助情報誘導パラメータ推定(APE)モジュールを導入する。
様々なアブレーション研究により提案したモジュールの有効性を実証した。
大規模な実験では、我々のモデルは他のニューラル画像圧縮モデルより優れており、Tecnickデータセット上のVVCよりも19.49\%高い速度歪み性能を実現している。
関連論文リスト
- Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T11:09:30Z) - SODAWideNet++: Combining Attention and Convolutions for Salient Object Detection [3.2586315449885106]
本稿では,Salient Object Detectionのために設計されたSODAWideNet++と呼ばれる新しいエンコーダ・デコーダ型ニューラルネットワークを提案する。
視覚変換器が初期からグローバルな受容場を得る能力に触発されて、注意誘導長距離特徴抽出(AGLRFE)モジュールを導入する。
ImageNet事前トレーニングの現在のパラダイムとは対照的に、提案したモデルエンドツーエンドの事前トレーニングのためにアノテーションをバイナライズすることで、COCOセマンティックセグメンテーションデータセットから118Kの注釈付き画像を修正します。
論文 参考訳(メタデータ) (2024-08-29T15:51:06Z) - Short-term power load forecasting method based on CNN-SAEDN-Res [12.733504847643005]
本稿では、畳み込みニューラルネットワーク(CNN)、自己アテンションエンコーダデコーダネットワーク(SAEDN)、残差リファインメント(Res)に基づく短期負荷予測手法を提案する。
提案手法は予測精度と予測安定性の点で利点がある。
論文 参考訳(メタデータ) (2023-09-02T11:36:50Z) - Hybrid machine-learned homogenization: Bayesian data mining and
convolutional neural networks [0.0]
本研究では,新しい特徴記述子を開発することにより,機械学習による予測を改善することを目的とする。
特徴記述子の反復的な開発により37の新たな特徴が生まれ、予測誤差を約3分の1削減することができた。
特徴に基づくアプローチと畳み込みニューラルネットワークの組み合わせは、ハイブリッドニューラルネットワークにつながる。
論文 参考訳(メタデータ) (2023-02-24T09:59:29Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Anti-aliasing Predictive Coding Network for Future Video Frame
Prediction [1.4610038284393165]
ここでは、正確で鋭い将来のフレームを生成することを目的とした、予測的コーディングベースのモデルを紹介します。
我々は、ニューラルネットワークが明確で自然なフレームを生成することを保証するために、いくつかのアーティファクトを提案し、改善する。
論文 参考訳(メタデータ) (2023-01-13T07:38:50Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Learning Cross-Scale Prediction for Efficient Neural Video Compression [30.051859347293856]
低レイテンシモードのUVGデータセット上のsRGB PSNRの観点から、最新のコーディング標準であるH.266/VVCと競合する最初のニューラルビデオを示す。
そこで我々は,より効率的な動き補償を実現する,新しいクロススケール予測モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-26T03:12:17Z) - Probabilistic Graph Attention Network with Conditional Kernels for
Pixel-Wise Prediction [158.88345945211185]
本稿では,画素レベルの予測を基本的側面,すなわち,技術の現状を推し進める新たなアプローチを提案する。
構造化されたマルチスケール機能学習と融合。
本論文では,マルチスケール表現を原理的に学習・融合するための新しいアテンテンションゲート条件ランダムフィールド(AG-CRFs)モデルに基づく確率的グラフアテンションネットワーク構造を提案する。
論文 参考訳(メタデータ) (2021-01-08T04:14:29Z) - End-to-End Facial Deep Learning Feature Compression with Teacher-Student
Enhancement [57.18801093608717]
本稿では,ディープニューラルネットワークの表現と学習能力を活用することで,エンドツーエンドの特徴圧縮手法を提案する。
特に、抽出した特徴量を、レート歪みコストを最適化することにより、エンドツーエンドでコンパクトに符号化する。
提案モデルの有効性を顔の特徴で検証し, 圧縮性能を高いレート精度で評価した。
論文 参考訳(メタデータ) (2020-02-10T10:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。