論文の概要: Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression
- arxiv url: http://arxiv.org/abs/2306.14287v1
- Date: Sun, 25 Jun 2023 16:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:42:38.967621
- Title: Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression
- Title(参考訳): 効率的なコンテクストフォーマ:学習画像圧縮における高速コンテクストモデリングのための時空間ウィンドウアテンション
- Authors: A. Burakhan Koyuncu, Panqi Jia, Atanas Boev, Elena Alshina, Eckehard
Steinbach
- Abstract要約: 学習した画像データセットのコンテキストモデリングに効率的なコンテキストフォーマ(eContextformer)を導入する。
eContextformerは、以前の作業よりもデコード速度、モデルの複雑さ、レート歪みのパフォーマンスを改善した。
標準のVersatile Video Coding (VVC) Test Model (VTM) 16.2と比較して、提案されたモデルは最大17.1%の節約を提供し、様々な学習ベースモデルを上回っている。
- 参考スコア(独自算出の注目度): 1.181206257787103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we introduce Efficient Contextformer (eContextformer) for
context modeling in lossy learned image compression, which is built upon our
previous work, Contextformer. The eContextformer combines the recent
advancements in efficient transformers and fast context models with the
spatio-channel attention mechanism. The proposed model enables content-adaptive
exploitation of the spatial and channel-wise latent dependencies for a high
performance and efficient entropy modeling. By incorporating several
innovations, the eContextformer features improved decoding speed, model
complexity and rate-distortion performance over previous work. For instance,
compared to Contextformer, the eContextformer requires 145x less model
complexity, 210x less decoding speed and achieves higher average bit savings on
the Kodak, CLIC2020 and Tecnick datasets. Compared to the standard Versatile
Video Coding (VVC) Test Model (VTM) 16.2, the proposed model provides up to
17.1% bitrate savings and surpasses various learning-based models.
- Abstract(参考訳): 本稿では,従来の研究であるContextformerをベースに構築した,学習した画像圧縮におけるコンテキストモデリングのためのEfficient Contextformer(eContextformer)を紹介する。
eContextformerは、効率的なトランスフォーマーと高速コンテキストモデルの最近の進歩と、時空間アテンション機構を組み合わせたものだ。
提案手法は,高効率エントロピーモデリングを実現するために,空間的およびチャネル的潜在依存性をコンテンツ適応的に活用することを可能にする。
いくつかのイノベーションを取り入れることで、eContextformerはデコード速度、モデルの複雑さ、以前の作業よりもレート歪みのパフォーマンスを改善した。
例えば、Contextformerと比較して、eContextformerはモデルの複雑さが145倍、デコード速度が210倍、Kodak、CLIC2020、Tecnickのデータセットで平均的なビット保存を実現する。
標準のVersatile Video Coding (VVC) Test Model (VTM) 16.2と比較して、提案モデルは最大17.1%のビットレート保存を提供し、様々な学習ベースのモデルを上回る。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - ELIC: Efficient Learned Image Compression with Unevenly Grouped
Space-Channel Contextual Adaptive Coding [9.908820641439368]
本研究では,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。
優れたパフォーマンスで、提案モデルは極めて高速なプレビューデコーディングとプログレッシブデコーディングもサポートする。
論文 参考訳(メタデータ) (2022-03-21T11:19:50Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Contextformer: A Transformer with Spatio-Channel Attention for Context
Modeling in Learned Image Compression [5.152019611975467]
本稿では,変換器を用いたコンテキストモデルであるContextformerを提案する。
我々は、現代の圧縮フレームワークのコンテキストモデルをContextformerに置き換え、広く使われているKodakイメージデータセット上でテストする。
実験の結果,VVCテストモデル (VVC) と比較すると,提案モデルでは最大10%の削減率が得られることがわかった。
論文 参考訳(メタデータ) (2022-03-04T17:29:32Z) - Entroformer: A Transformer-based Entropy Model for Learned Image
Compression [17.51693464943102]
本稿では,確率分布推定における長距離依存性を捉えるために,トランスフォーマを用いたエントロピーモデルEntroformerを提案する。
実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-02-11T08:03:31Z) - Learning True Rate-Distortion-Optimization for End-To-End Image
Compression [59.816251613869376]
速度歪みの最適化は、従来の画像圧縮とビデオ圧縮の重要な部分である。
本稿では,RDO結果の低複雑さ推定をトレーニングに導入することにより,トレーニングの強化を図る。
我々は以前のRDONetモデルに比べてMS-SSIMで平均19.6%のレートセーブを実現し、従来のディープイメージコーダに比べて27.3%のレートセーブを実現した。
論文 参考訳(メタデータ) (2022-01-05T13:02:00Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Channel-wise Autoregressive Entropy Models for Learned Image Compression [8.486483425885291]
画像圧縮に対する学習ベースのアプローチでは、コーデックは、速度歪みの目的を最小化するために計算モデルを最適化することによって開発される。
チャネルコンディショニングと遅延残差予測という2つの拡張を導入し,ネットワークアーキテクチャの速度歪み性能を向上した。
改善がもっとも効果的である低ビットレートでは、私たちのモデルはベースラインを最大18%節約し、BPGのような手書きコーデックを最大25%上回ります。
論文 参考訳(メタデータ) (2020-07-17T03:33:53Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。