論文の概要: Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression
- arxiv url: http://arxiv.org/abs/2311.18103v1
- Date: Wed, 29 Nov 2023 21:40:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:38:42.240749
- Title: Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression
- Title(参考訳): 効率的な学習画像圧縮のためのコーナーからセンターまでの長距離コンテキストモデル
- Authors: Yang Sui, Ding Ding, Xiang Pan, Xiaozhong Xu, Shan Liu, Bo Yuan,
Zhenzhong Chen
- Abstract要約: 学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
- 参考スコア(独自算出の注目度): 70.0411436929495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the framework of learned image compression, the context model plays a
pivotal role in capturing the dependencies among latent representations. To
reduce the decoding time resulting from the serial autoregressive context
model, the parallel context model has been proposed as an alternative that
necessitates only two passes during the decoding phase, thus facilitating
efficient image compression in real-world scenarios. However, performance
degradation occurs due to its incomplete casual context. To tackle this issue,
we conduct an in-depth analysis of the performance degradation observed in
existing parallel context models, focusing on two aspects: the Quantity and
Quality of information utilized for context prediction and decoding. Based on
such analysis, we propose the \textbf{Corner-to-Center transformer-based
Context Model (C$^3$M)} designed to enhance context and latent predictions and
improve rate-distortion performance. Specifically, we leverage the
logarithmic-based prediction order to predict more context features from corner
to center progressively. In addition, to enlarge the receptive field in the
analysis and synthesis transformation, we use the Long-range Crossing Attention
Module (LCAM) in the encoder/decoder to capture the long-range semantic
information by assigning the different window shapes in different channels.
Extensive experimental evaluations show that the proposed method is effective
and outperforms the state-of-the-art parallel methods. Finally, according to
the subjective analysis, we suggest that improving the detailed representation
in transformer-based image compression is a promising direction to be explored.
- Abstract(参考訳): 学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係を捉える上で重要な役割を果たす。
シリアル自己回帰的文脈モデルから生じる復号時間を削減するため、並列コンテキストモデルは復号フェーズで2つのパスしか必要とせず、現実のシナリオでの効率的な画像圧縮を容易にする代替として提案されている。
しかし、不完全なカジュアルコンテキストのために性能劣化が発生する。
この問題に対処するために,既存の並列コンテキストモデルで観測される性能劣化の詳細な分析を行い,文脈予測とデコードに使用される情報量と品質の2つの側面に焦点を当てた。
このような分析に基づいて、文脈予測と潜時予測を強化し、レート歪曲性能を向上させるように設計されたtextbf{Corner-to-Center transformer-based Context Model (C$^3$M)}を提案する。
具体的には、対数に基づく予測の順序を利用して、より多くの文脈特徴を順調に予測する。
さらに,解析および合成変換における受容領域を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM)を用いて,異なるチャネルに異なるウィンドウ形状を割り当てることで,長距離意味情報をキャプチャする。
大規模実験により,提案手法の有効性が示され,最先端並列手法よりも優れていることがわかった。
最後に,主観的分析により,トランスベース画像圧縮における詳細表現の改善が有望な方向であることが示唆された。
関連論文リスト
- Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文 参考訳(メタデータ) (2023-06-25T16:29:51Z) - Improving Diffusion-based Image Translation using Asymmetric Gradient
Guidance [51.188396199083336]
非対称勾配法の適用により拡散サンプリングの逆過程を導出する手法を提案する。
我々のモデルの適応性は、画像融合モデルと潜時拡散モデルの両方で実装できる。
実験により,本手法は画像翻訳タスクにおいて,様々な最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-07T12:56:56Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression [5.152019611975467]
本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-04T17:29:32Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。