論文の概要: Learning Context-Based Non-local Entropy Modeling for Image Compression
- arxiv url: http://arxiv.org/abs/2005.04661v1
- Date: Sun, 10 May 2020 13:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 02:15:57.549180
- Title: Learning Context-Based Non-local Entropy Modeling for Image Compression
- Title(参考訳): 画像圧縮のための学習コンテキストに基づく非局所エントロピーモデリング
- Authors: Mu Li, Kai Zhang, Wangmeng Zuo, Radu Timofte, David Zhang
- Abstract要約: 本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
- 参考スコア(独自算出の注目度): 140.64888994506313
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The entropy of the codes usually serves as the rate loss in the recent
learned lossy image compression methods. Precise estimation of the
probabilistic distribution of the codes plays a vital role in the performance.
However, existing deep learning based entropy modeling methods generally assume
the latent codes are statistically independent or depend on some side
information or local context, which fails to take the global similarity within
the context into account and thus hinder the accurate entropy estimation. To
address this issue, we propose a non-local operation for context modeling by
employing the global similarity within the context. Specifically, we first
introduce the proxy similarity functions and spatial masks to handle the
missing reference problem in context modeling. Then, we combine the local and
the global context via a non-local attention block and employ it in masked
convolutional networks for entropy modeling. The entropy model is further
adopted as the rate loss in a joint rate-distortion optimization to guide the
training of the analysis transform and the synthesis transform network in
transforming coding framework. Considering that the width of the transforms is
essential in training low distortion models, we finally produce a U-Net block
in the transforms to increase the width with manageable memory consumption and
time complexity. Experiments on Kodak and Tecnick datasets demonstrate the
superiority of the proposed context-based non-local attention block in entropy
modeling and the U-Net block in low distortion compression against the existing
image compression standards and recent deep image compression models.
- Abstract(参考訳): 符号のエントロピーは、通常、最近の学習された損失画像圧縮手法の速度損失として機能する。
コードの確率分布の正確な推定は、パフォーマンスにおいて重要な役割を果たす。
しかし、既存の深層学習に基づくエントロピーモデリング手法は一般に、潜在コードは統計的に独立しているか、あるいは何らかの側情報や局所的な文脈に依存していると仮定するが、これは文脈内でのグローバルな類似性を考慮に入れず、正確なエントロピー推定を妨げる。
本稿では,コンテキスト内のグローバル類似性を用いて,コンテキストモデリングのための非局所的な操作を提案する。
具体的には,まず,コンテキストモデリングにおける参照問題の欠如に対処するために,プロキシ類似度関数と空間マスクを導入する。
そして,非局所的注意ブロックを介して局所的コンテキストとグローバル的コンテキストを組み合わせることで,エントロピーモデリングのためのマスク付き畳み込みネットワークに適用する。
エントロピーモデルはさらに、変換符号化フレームワークにおける解析変換と合成変換ネットワークのトレーニングを導くために、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
Kodak と Tecnick データセットを用いた実験では,既存の画像圧縮標準や最近の深部画像圧縮モデルに対して,エントロピーモデリングにおけるコンテキストベース非局所アテンションブロックと低歪み圧縮におけるU-Netブロックの優位性を示した。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Multi-Context Dual Hyper-Prior Neural Image Compression [10.349258638494137]
入力画像から局所的情報と大域的情報の両方を効率的にキャプチャするトランスフォーマーに基づく非線形変換を提案する。
また、2つの異なるハイパープライヤを組み込んだ新しいエントロピーモデルを導入し、潜在表現のチャネル間および空間的依存関係をモデル化する。
実験の結果,提案するフレームワークは,速度歪み性能の観点から,最先端の手法よりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2023-09-19T17:44:44Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Joint Global and Local Hierarchical Priors for Learned Image Compression [30.44884350320053]
近年,従来の手書き画像コーデックと比較して,学習画像圧縮法の性能が向上している。
本稿では,ローカル情報とグローバル情報の両方をコンテンツに依存した方法で活用する,情報変換(Information Transformer, Informer)と呼ばれる新しいエントロピーモデルを提案する。
実験により,Informer はKodak および Tecnick データセットの最先端手法よりも速度歪み性能が向上することを示した。
論文 参考訳(メタデータ) (2021-12-08T06:17:37Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。