論文の概要: Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2306.14287v2
- Date: Tue, 27 Feb 2024 14:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 22:48:35.785689
- Title: Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression
- Title(参考訳): 効率的なコンテクストフォーマ:学習画像圧縮における高速コンテクストモデリングのための時空間ウィンドウアテンション
- Authors: A. Burakhan Koyuncu, Panqi Jia, Atanas Boev, Elena Alshina, Eckehard
Steinbach
- Abstract要約: 学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
- 参考スコア(独自算出の注目度): 1.9249287163937978
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Entropy estimation is essential for the performance of learned image
compression. It has been demonstrated that a transformer-based entropy model is
of critical importance for achieving a high compression ratio, however, at the
expense of a significant computational effort. In this work, we introduce the
Efficient Contextformer (eContextformer) - a computationally efficient
transformer-based autoregressive context model for learned image compression.
The eContextformer efficiently fuses the patch-wise, checkered, and
channel-wise grouping techniques for parallel context modeling, and introduces
a shifted window spatio-channel attention mechanism. We explore better training
strategies and architectural designs and introduce additional complexity
optimizations. During decoding, the proposed optimization techniques
dynamically scale the attention span and cache the previous attention
computations, drastically reducing the model and runtime complexity. Compared
to the non-parallel approach, our proposal has ~145x lower model complexity and
~210x faster decoding speed, and achieves higher average bit savings on Kodak,
CLIC2020, and Tecnick datasets. Additionally, the low complexity of our context
model enables online rate-distortion algorithms, which further improve the
compression performance. We achieve up to 17% bitrate savings over the intra
coding of Versatile Video Coding (VVC) Test Model (VTM) 16.2 and surpass
various learning-based compression models.
- Abstract(参考訳): エントロピー推定は学習画像圧縮の性能に不可欠である。
変換器に基づくエントロピーモデルが高い圧縮比を達成する上で重要であることが実証されているが、かなりの計算努力を犠牲にしている。
本稿では, 学習画像圧縮のための, 計算効率の良い変換器に基づく自己回帰文脈モデルである, 効率的なコンテキストフォーマ(eContextformer)を提案する。
eContextformerは、並列コンテキストモデリングのためのパッチワイド、チェッカード、チャネルワイドのグルーピング技術を効率よく融合し、シフトウインドウスパ比チャネルアテンション機構を導入する。
より優れたトレーニング戦略とアーキテクチャ設計を検討し、さらなる複雑さの最適化を導入します。
符号化中,提案手法は注意スパンを動的にスケールし,それまでの注意力計算をキャッシュし,モデルとランタイムの複雑さを劇的に低減する。
非並列アプローチと比較して,提案手法はモデルの複雑さが約145倍小さく,デコード速度が約210倍速く,kodak,clic2020,tecnickのデータセットで平均的なビット節約を実現する。
さらに,コンテクストモデルの複雑さが低く,オンラインレートゆがみアルゴリズムが可能となり,圧縮性能がさらに向上した。
汎用ビデオ符号化(vvc)テストモデル(vtm)16.2のイントラコーディングよりも最大17%のビットレート節約を達成し,様々な学習に基づく圧縮モデルを上回る。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - ELIC: Efficient Learned Image Compression with Unevenly Grouped
Space-Channel Contextual Adaptive Coding [9.908820641439368]
本研究では,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。
優れたパフォーマンスで、提案モデルは極めて高速なプレビューデコーディングとプログレッシブデコーディングもサポートする。
論文 参考訳(メタデータ) (2022-03-21T11:19:50Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression [5.152019611975467]
本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-04T17:29:32Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Channel-wise Autoregressive Entropy Models for Learned Image Compression [8.486483425885291]
画像圧縮に対する学習ベースのアプローチでは、コーデックは、速度歪みの目的を最小化するために計算モデルを最適化することによって開発される。
チャネルコンディショニングと遅延残差予測という2つの拡張を導入し,ネットワークアーキテクチャの速度歪み性能を向上した。
改善がもっとも効果的である低ビットレートでは、私たちのモデルはベースラインを最大18%節約し、BPGのような手書きコーデックを最大25%上回ります。
論文 参考訳(メタデータ) (2020-07-17T03:33:53Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。