論文の概要: Frequency Disentangled Features in Neural Image Compression
- arxiv url: http://arxiv.org/abs/2308.02620v1
- Date: Fri, 4 Aug 2023 14:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 19:37:19.286811
- Title: Frequency Disentangled Features in Neural Image Compression
- Title(参考訳): ニューラル画像圧縮における周波数遠絡特性
- Authors: Ali Zafari, Atefeh Khoshkhahtinat, Piyush Mehta, Mohammad Saeed
Ebrahimi Saadabadi, Mohammad Akyash, Nasser M. Nasrabadi
- Abstract要約: ニューラル画像圧縮ネットワークは、エントロピーモデルが潜在コードの真の分布とどの程度うまく一致しているかによって制御される。
本稿では,緩和されたスカラー量子化が低ビットレートを実現するのに役立つ特徴レベルの周波数歪みを提案する。
提案するネットワークは,手作業によるコーデックだけでなく,空間的自己回帰エントロピーモデル上に構築されたニューラルネットワークベースのコーデックよりも優れている。
- 参考スコア(独自算出の注目度): 13.016298207860974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The design of a neural image compression network is governed by how well the
entropy model matches the true distribution of the latent code. Apart from the
model capacity, this ability is indirectly under the effect of how close the
relaxed quantization is to the actual hard quantization. Optimizing the
parameters of a rate-distortion variational autoencoder (R-D VAE) is ruled by
this approximated quantization scheme. In this paper, we propose a
feature-level frequency disentanglement to help the relaxed scalar quantization
achieve lower bit rates by guiding the high entropy latent features to include
most of the low-frequency texture of the image. In addition, to strengthen the
de-correlating power of the transformer-based analysis/synthesis transform, an
augmented self-attention score calculation based on the Hadamard product is
utilized during both encoding and decoding. Channel-wise autoregressive entropy
modeling takes advantage of the proposed frequency separation as it inherently
directs high-informational low-frequency channels to the first chunks and
conditions the future chunks on it. The proposed network not only outperforms
hand-engineered codecs, but also neural network-based codecs built on
computation-heavy spatially autoregressive entropy models.
- Abstract(参考訳): ニューラル画像圧縮ネットワークの設計は、エントロピーモデルが潜在コードの真の分布といかにうまく一致しているかによって制御される。
モデル容量とは別に、この能力は、緩和された量子化が実際のハード量子化にどの程度近いかによって間接的に決定される。
この近似量子化スキームにより、レート分散変分オートエンコーダ(r-d vae)のパラメータの最適化が決定される。
本稿では,画像の低周波テクスチャの大部分を含む高エントロピー遅延特徴を導くことで,緩和されたスカラー量子化が低ビットレートを実現するための特徴レベルの周波数歪みを提案する。
また、変換器に基づく解析/合成変換のデコレーション力を強化するために、アダマール積に基づく拡張自己注意スコア計算を符号化と復号の両方で利用する。
チャネル単位での自己回帰エントロピーモデリングは、高情報型低周波チャネルを第1のチャンクと将来のチャンクに指示するため、提案された周波数分離の利点を生かしている。
提案するネットワークは,手作業によるコーデックだけでなく,計算量の多い空間的自己回帰エントロピーモデルに基づくニューラルネットワークベースのコーデックよりも優れている。
関連論文リスト
- Approximately Invertible Neural Network for Learned Image Compression [19.330720001489937]
本稿では,学習画像圧縮のための約可逆ニューラルネットワーク(A-INN)フレームワークを提案する。
INNと量子化を用いた場合、損失画像圧縮における速度歪みの最適化を定式化する。
大規模な実験により,提案したA-INNは既存の学習画像圧縮法よりも優れていた。
論文 参考訳(メタデータ) (2024-08-30T07:57:47Z) - Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis [10.428185253933004]
ガウスデコーダをデコーダ側の非等方拡散モデルに置き換える。
我々のフレームワークは、確率分布潜在表現を正確にモデル化する新しいエントロピーモデルを備えている。
実験により,我々のフレームワークは,最先端な生成エントロピーベースのコーデックに比べて知覚品質がよいことを示した。
論文 参考訳(メタデータ) (2024-03-24T18:33:16Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Compression with Bayesian Implicit Neural Representations [16.593537431810237]
本稿では,データに変分ニューラルネットワークをオーバーフィッティングし,相対エントロピー符号化を用いて近似後重みサンプルを圧縮し,量子化やエントロピー符号化を行う。
実験により,本手法は単純さを維持しつつ,画像および音声の圧縮に強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-05-30T16:29:52Z) - The END: An Equivariant Neural Decoder for Quantum Error Correction [73.4384623973809]
データ効率のよいニューラルデコーダを導入し、この問題の対称性を活用する。
本稿では,従来のニューラルデコーダに比べて精度の高い新しい同変アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-04-14T19:46:39Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Hybrid Spatial-Temporal Entropy Modelling for Neural Video Compression [25.96187914295921]
本稿では,空間的依存と時間的依存の両方を効率的に捉える強力なエントロピーモデルを提案する。
我々のエントロピーモデルでは,最大圧縮比を用いたH266(VTM)と比較して,UVGデータセットの18.2%の節約が可能である。
論文 参考訳(メタデータ) (2022-07-13T00:03:54Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Rate Distortion Characteristic Modeling for Neural Image Compression [59.25700168404325]
エンドツーエンドの最適化機能は、ニューラルイメージ圧縮(NIC)の優れた損失圧縮性能を提供する。
異なるモデルは、R-D空間の異なる点に到達するために訓練される必要がある。
深層ネットワークと統計モデルを用いてNICのR-D挙動を記述するために,本質的な数学的関数の定式化に努めている。
論文 参考訳(メタデータ) (2021-06-24T12:23:05Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。