論文の概要: Neural Data-Dependent Transform for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2203.04963v1
- Date: Wed, 9 Mar 2022 14:56:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-11 15:38:36.935111
- Title: Neural Data-Dependent Transform for Learned Image Compression
- Title(参考訳): 学習画像圧縮のためのニューラルデータ依存変換
- Authors: Dezhao Wang, Wenhan Yang, Yueyu Hu, Jiaying Liu
- Abstract要約: ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
- 参考スコア(独自算出の注目度): 72.86505042102155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression has achieved great success due to its excellent
modeling capacity, but seldom further considers the Rate-Distortion
Optimization (RDO) of each input image. To explore this potential in the
learned codec, we make the first attempt to build a neural data-dependent
transform and introduce a continuous online mode decision mechanism to jointly
optimize the coding efficiency for each individual image. Specifically, apart
from the image content stream, we employ an additional model stream to generate
the transform parameters at the decoder side. The presence of a model stream
enables our model to learn more abstract neural-syntax, which helps cluster the
latent representations of images more compactly. Beyond the transform stage, we
also adopt neural-syntax based post-processing for the scenarios that require
higher quality reconstructions regardless of extra decoding overhead. Moreover,
the involvement of the model stream further makes it possible to optimize both
the representation and the decoder in an online way, i.e. RDO at the testing
time. It is equivalent to a continuous online mode decision, like coding modes
in the traditional codecs, to improve the coding efficiency based on the
individual input image. The experimental results show the effectiveness of the
proposed neural-syntax design and the continuous online mode decision
mechanism, demonstrating the superiority of our method in coding efficiency
compared to the latest conventional standard Versatile Video Coding (VVC) and
other state-of-the-art learning-based methods.
- Abstract(参考訳): 学習された画像圧縮は、優れたモデリング能力によって大きな成功を収めてきたが、各入力画像のレート・歪み最適化(RDO)をさらに考えることは滅多にない。
この可能性を学習コーデックで探究するため,我々はまず,ニューラルネットワーク依存変換を構築し,各画像の符号化効率を共同で最適化する継続的オンラインモード決定機構を導入する。
具体的には、画像コンテンツストリームとは別に、デコーダ側で変換パラメータを生成するために追加のモデルストリームを使用します。
モデルストリームの存在は、より抽象的なニューラルシンタクスを学習し、画像の潜在表現をよりコンパクトにクラスタリングするのに役立つ。
トランスフォーメーションステージ以外にも、余分なデコードオーバーヘッドに関わらず、高品質な再構築を必要とするシナリオに対して、ニューラルシンタクスベースの後処理を採用しています。
さらに、モデルストリームの関与により、オンラインの方法で表現とデコーダの両方、すなわちテスト時にrdoを最適化することができる。
従来のコーデックのコーディングモードのような連続的なオンラインモードの決定と等価であり、個々の入力画像に基づいてコーディング効率を向上させる。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示され,従来のVVC(Versatile Video Coding)や他の最先端の学習ベース手法と比較して,符号化効率の優位性が示された。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - OL-DN: Online learning based dual-domain network for HEVC intra frame
quality enhancement [24.91807723834651]
畳み込みニューラルネットワーク(CNN)に基づく手法は,圧縮画像とビデオの品質向上に有効なソリューションを提供する。
本稿では,HEVC内符号化画像の品質向上に生データを応用し,オンライン学習手法を提案する。
提案するオンライン学習ベースデュアルドメインネットワーク(OL-DN)は,最先端手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-09T11:06:59Z) - DiVAE: Photorealistic Images Synthesis with Denoising Diffusion Decoder [73.1010640692609]
本稿では,拡散デコーダ(DiVAE)を用いたVQ-VAEアーキテクチャモデルを提案する。
我々のモデルは最先端の成果を達成し、さらに多くのフォトリアリスティックな画像を生成する。
論文 参考訳(メタデータ) (2022-06-01T10:39:12Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。