論文の概要: Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2203.02452v1
- Date: Fri, 4 Mar 2022 17:29:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:41:47.675328
- Title: Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression
- Title(参考訳): Contextformer:学習画像圧縮における文脈モデリングのための時空間注意変換器
- Authors: A. Burakhan Koyuncu, Han Gao, Eckehard Steinbach
- Abstract要約: 本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
- 参考スコア(独自算出の注目度): 5.152019611975467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Entropy modeling is a key component for high-performance image compression
algorithms. Recent developments in autoregressive context modeling helped
learning-based methods to surpass their classical counterparts. However, the
performance of those models can be further improved due to the underexploited
spatio-channel dependencies in latent space, and the suboptimal implementation
of context adaptivity. Inspired by the adaptive characteristics of the
transformers, we propose a transformer-based context model, a.k.a.
Contextformer, which generalizes the de facto standard attention mechanism to
spatio-channel attention. We replace the context model of a modern compression
framework with the Contextformer and test it on the widely used Kodak image
dataset. Our experimental results show that the proposed model provides up to
10% rate savings compared to the standard Versatile Video Coding (VVC) Test
Model (VTM) 9.1, and outperforms various learning-based models.
- Abstract(参考訳): エントロピーモデリングは高性能画像圧縮アルゴリズムの鍵となる要素である。
最近の自己回帰的文脈モデリングの発展は、学習に基づく手法が古典的手法を超えるのを助けた。
しかし、これらのモデルの性能は、潜時空間におけるスパースチャネル依存性の不足や、文脈適応性の準最適実装により、さらに向上することができる。
変圧器の適応特性に着想を得て,デファクト標準注意機構を時空間注意に一般化したトランスフォーマ(a.k.a.contextformer)を提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVC(Versatile Video Coding)テストモデル(VTM)9.1と比較して最大10%のコスト削減が可能であり,学習ベースモデルよりも優れていた。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文 参考訳(メタデータ) (2023-06-25T16:29:51Z) - Semantic Image Synthesis with Semantically Coupled VQ-Model [42.19799555533789]
本稿では,ベクトル量子化モデル (VQ-model) から遅延空間を条件付きで合成する。
本モデルは,ADE20k,Cityscapes,COCO-Stuffといった人気セマンティック画像データセットを用いた自己回帰モデルを用いて,セマンティック画像合成を改善することを示す。
論文 参考訳(メタデータ) (2022-09-06T14:37:01Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - Channel-wise Autoregressive Entropy Models for Learned Image Compression [8.486483425885291]
画像圧縮に対する学習ベースのアプローチでは、コーデックは、速度歪みの目的を最小化するために計算モデルを最適化することによって開発される。
チャネルコンディショニングと遅延残差予測という2つの拡張を導入し,ネットワークアーキテクチャの速度歪み性能を向上した。
改善がもっとも効果的である低ビットレートでは、私たちのモデルはベースラインを最大18%節約し、BPGのような手書きコーデックを最大25%上回ります。
論文 参考訳(メタデータ) (2020-07-17T03:33:53Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。