論文の概要: Causal Contextual Prediction for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2011.09704v5
- Date: Sun, 31 Oct 2021 05:06:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 21:46:09.676842
- Title: Causal Contextual Prediction for Learned Image Compression
- Title(参考訳): 学習画像圧縮における因果関係予測
- Authors: Zongyu Guo, Zhizheng Zhang, Runsen Feng, Zhibo Chen
- Abstract要約: 本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
- 参考スコア(独自算出の注目度): 36.08393281509613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past several years, we have witnessed impressive progress in the
field of learned image compression. Recent learned image codecs are commonly
based on autoencoders, that first encode an image into low-dimensional latent
representations and then decode them for reconstruction purposes. To capture
spatial dependencies in the latent space, prior works exploit hyperprior and
spatial context model to build an entropy model, which estimates the bit-rate
for end-to-end rate-distortion optimization. However, such an entropy model is
suboptimal from two aspects: (1) It fails to capture spatially global
correlations among the latents. (2) Cross-channel relationships of the latents
are still underexplored. In this paper, we propose the concept of separate
entropy coding to leverage a serial decoding process for causal contextual
entropy prediction in the latent space. A causal context model is proposed that
separates the latents across channels and makes use of cross-channel
relationships to generate highly informative contexts. Furthermore, we propose
a causal global prediction model, which is able to find global reference points
for accurate predictions of unknown points. Both these two models facilitate
entropy estimation without the transmission of overhead. In addition, we
further adopt a new separate attention module to build more powerful transform
networks. Experimental results demonstrate that our full image compression
model outperforms standard VVC/H.266 codec on Kodak dataset in terms of both
PSNR and MS-SSIM, yielding the state-of-the-art rate-distortion performance.
- Abstract(参考訳): 過去数年間、我々は学習した画像圧縮の分野で驚くべき進歩を見てきた。
近年の学習画像コーデックはオートエンコーダに基づいており、まずイメージを低次元の潜在表現にエンコードし、再構成のためにデコードする。
遅延空間における空間依存性を捉えるために、先行研究はハイパープライアおよび空間コンテキストモデルを利用してエントロピーモデルを構築し、エンドツーエンドの速度-歪み最適化のビットレートを推定する。
しかし、このようなエントロピーモデルは、(1)潜伏者間の空間的グローバルな相関を捉えないという2つの側面から最適である。
2) 潜在者のチャネル間関係は未検討のままである。
本稿では, 潜在空間における因果的文脈エントロピー予測に逐次復号法を利用するため, 分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
さらに、未知の点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
これら2つのモデルは、オーバーヘッドの伝達なしにエントロピー推定を促進する。
さらに,より強力なトランスフォーメーションネットワークを構築するために,新たなアテンションモジュールを新たに採用する。
実験結果から,PSNRとMS-SSIMの両面で,コダックデータセット上の標準VVC/H.266コーデックよりも高い性能を示し,最先端の速度歪み性能が得られることがわかった。
関連論文リスト
- Improving Diffusion-Based Image Synthesis with Context Prediction [49.186366441954846]
既存の拡散モデルは、主に、劣化した画像から空間軸に沿って画素幅または特徴幅の制約で入力画像を再構成しようとする。
文脈予測を用いて拡散に基づく画像合成を改善するためのConPreDiffを提案する。
我々のConPreDiffは従来手法を一貫して上回り、ゼロショットFIDスコア6.21で、MS-COCO上で新たなSOTAテキスト・画像生成結果を達成する。
論文 参考訳(メタデータ) (2024-01-04T01:10:56Z) - Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Complexity Matters: Rethinking the Latent Space for Generative Modeling [65.64763873078114]
生成的モデリングにおいて、多くの成功したアプローチは、例えば安定拡散のような低次元の潜在空間を利用する。
本研究では, モデル複雑性の観点から潜在空間を再考することにより, 未探索の話題に光を当てることを目的としている。
論文 参考訳(メタデータ) (2023-07-17T07:12:29Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Joint Global and Local Hierarchical Priors for Learned Image Compression [30.44884350320053]
近年,従来の手書き画像コーデックと比較して,学習画像圧縮法の性能が向上している。
本稿では,ローカル情報とグローバル情報の両方をコンテンツに依存した方法で活用する,情報変換(Information Transformer, Informer)と呼ばれる新しいエントロピーモデルを提案する。
実験により,Informer はKodak および Tecnick データセットの最先端手法よりも速度歪み性能が向上することを示した。
論文 参考訳(メタデータ) (2021-12-08T06:17:37Z) - A Cross Channel Context Model for Latents in Deep Image Compression [10.20672454399047]
本稿では,深部画像圧縮における潜伏者に対するクロスチャネルコンテキストモデルを提案する。
提案モデルは共同自己回帰型および階層型先行エントロピーモデルと組み合わされる。
歪み計量としてPSNRを用いると、合成モデルはベースラインエントロピーモデルに対して6.30%と6.31%のBDレートの減少を達成する。
論文 参考訳(メタデータ) (2021-03-04T08:13:04Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。