論文の概要: Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis
- arxiv url: http://arxiv.org/abs/2403.16258v1
- Date: Sun, 24 Mar 2024 18:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 16:46:40.346513
- Title: Laplacian-guided Entropy Model in Neural Codec with Blur-dissipated Synthesis
- Title(参考訳): ブラ散逸合成を用いたニューラルコーデックにおけるラプラシアン誘導エントロピーモデル
- Authors: Atefeh Khoshkhahtinat, Ali Zafari, Piyush M. Mehta, Nasser M. Nasrabadi,
- Abstract要約: ガウスデコーダをデコーダ側の非等方拡散モデルに置き換える。
我々のフレームワークは、確率分布潜在表現を正確にモデル化する新しいエントロピーモデルを備えている。
実験により,我々のフレームワークは,最先端な生成エントロピーベースのコーデックに比べて知覚品質がよいことを示した。
- 参考スコア(独自算出の注目度): 10.428185253933004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While replacing Gaussian decoders with a conditional diffusion model enhances the perceptual quality of reconstructions in neural image compression, their lack of inductive bias for image data restricts their ability to achieve state-of-the-art perceptual levels. To address this limitation, we adopt a non-isotropic diffusion model at the decoder side. This model imposes an inductive bias aimed at distinguishing between frequency contents, thereby facilitating the generation of high-quality images. Moreover, our framework is equipped with a novel entropy model that accurately models the probability distribution of latent representation by exploiting spatio-channel correlations in latent space, while accelerating the entropy decoding step. This channel-wise entropy model leverages both local and global spatial contexts within each channel chunk. The global spatial context is built upon the Transformer, which is specifically designed for image compression tasks. The designed Transformer employs a Laplacian-shaped positional encoding, the learnable parameters of which are adaptively adjusted for each channel cluster. Our experiments demonstrate that our proposed framework yields better perceptual quality compared to cutting-edge generative-based codecs, and the proposed entropy model contributes to notable bitrate savings.
- Abstract(参考訳): ガウスデコーダを条件付き拡散モデルに置き換えることで、ニューラル画像圧縮における再構成の知覚品質が向上する一方、画像データに対する誘導バイアスの欠如は、最先端の知覚レベルを達成する能力を制限する。
この制限に対処するために、デコーダ側の非等方拡散モデルを採用する。
このモデルは、周波数内容の区別を目的とした誘導バイアスを課し、高品質な画像の生成を容易にする。
さらに,提案手法は,エントロピー復号を高速化しつつ,潜時空間における時空間の時空間相関を利用して,潜時表現の確率分布を正確にモデル化する新しいエントロピーモデルを備えている。
このチャネルワイドエントロピーモデルは、各チャネルチャンク内の局所的および大域的空間的コンテキストの両方を活用する。
グローバル空間コンテキストは、画像圧縮タスク用に特別に設計されたTransformer上に構築されている。
設計されたTransformerはラプラシアン型の位置符号化を採用しており、学習可能なパラメータは各チャネルクラスタに対して適応的に調整される。
提案手法は, 最先端生成コーデックに比べて知覚品質が向上し, エントロピーモデルが顕著なビットレート保存に寄与することを示した。
関連論文リスト
- Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Learning End-to-End Channel Coding with Diffusion Models [19.80498913496519]
拡散モデルに基づくエンドツーエンドのチャネル符号化フレームワークを提案する。
様々なチャネルモデルを用いたシミュレーションにより,拡散モデルがチャネル分布を正確に学習できることが確かめられる。
また,高速化サンプリングアルゴリズムを適用した場合のサンプリング品質とサンプリング速度のトレードオフについても検討する。
論文 参考訳(メタデータ) (2023-09-19T10:35:54Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Frequency Disentangled Features in Neural Image Compression [13.016298207860974]
ニューラル画像圧縮ネットワークは、エントロピーモデルが潜在コードの真の分布とどの程度うまく一致しているかによって制御される。
本稿では,緩和されたスカラー量子化が低ビットレートを実現するのに役立つ特徴レベルの周波数歪みを提案する。
提案するネットワークは,手作業によるコーデックだけでなく,空間的自己回帰エントロピーモデル上に構築されたニューラルネットワークベースのコーデックよりも優れている。
論文 参考訳(メタデータ) (2023-08-04T14:55:44Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。