論文の概要: High-Efficiency Lossy Image Coding Through Adaptive Neighborhood
Information Aggregation
- arxiv url: http://arxiv.org/abs/2204.11448v1
- Date: Mon, 25 Apr 2022 05:40:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:41:57.932312
- Title: High-Efficiency Lossy Image Coding Through Adaptive Neighborhood
Information Aggregation
- Title(参考訳): 適応型近傍情報アグリゲーションによる高効率損失画像符号化
- Authors: Ming Lu and Zhan Ma
- Abstract要約: 圧縮性能とスループットの両方に優れた効率のロスシー画像符号化(lic)は難しい。
提案手法は,コダック,CLIC,Tecnickの各データセットの平均値に対して,$approx$15%のBDレート改善を施したVVCイントラよりも優れた圧縮性能を報告した。
- 参考スコア(独自算出の注目度): 37.02522504535854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Questing for lossy image coding (LIC) with superior efficiency on both
compression performance and computation throughput is challenging. The vital
factor behind is how to intelligently explore Adaptive Neighborhood Information
Aggregation (ANIA) in transform and entropy coding modules. To this aim,
Integrated Convolution and Self-Attention (ICSA) unit is first proposed to form
content-adaptive transform to dynamically characterize and embed neighborhood
information conditioned on the input. Then a Multistage Context Model (MCM) is
developed to stagewisely execute context prediction using necessary
neighborhood elements for accurate and parallel entropy probability estimation.
Both ICSA and MCM are stacked under a Variational Auto-Encoder (VAE)
architecture to derive rate-distortion optimized compact representation of
input image via end-to-end training. Our method reports the superior
compression performance surpassing the VVC Intra with $\approx$15% BD-rate
improvement averaged across Kodak, CLIC and Tecnick datasets; and also
demonstrates $\approx$10$\times$ speedup of image decoding when compared with
other notable learned LIC approaches. All materials are made publicly
accessible at https://njuvision.github.io/TinyLIC for reproducible research.
- Abstract(参考訳): 圧縮性能と計算スループットの両方において、効率のよい損失画像符号化(lic)の探索は困難である。
重要な要素は、トランスフォーメーションとエントロピーコーディングモジュールにおいて、Adaptive Neighborhood Information Aggregation(ANIA)をインテリジェントに探索する方法である。
この目的のために、ICSA(Integrated Convolution and Self-Attention)ユニットが最初に提案され、入力に条件付けられた周辺情報を動的に特徴付け、埋め込むコンテンツ適応変換が形成される。
次に、MCM(Multistage Context Model)を開発し、正確かつ並列なエントロピー確率推定に必要な近傍要素を用いてコンテキスト予測を行う。
ICSA と MCM はいずれも変分オートエンコーダ (VAE) アーキテクチャで積み重ねられ、入力画像の速度歪みを最適化したコンパクト表現をエンドツーエンドのトレーニングで導出する。
kodak, clic, tecnickのデータセットで平均約15%のbdレート改善がvvc intraよりも優れた圧縮性能を示すとともに,他の注目すべき学習licアプローチと比較して画像デコード速度が約10$\times$であることを示す。
すべての資料は再現可能な研究のためにhttps://njuvision.github.io/Tinylicで公開されている。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - AICT: An Adaptive Image Compression Transformer [18.05997169440533]
我々は、より単純で効果的なTranformerベースのチャネルワイド自動回帰事前モデルを提案し、絶対画像圧縮変換器(ICT)を実現する。
提案したICTは、潜在表現からグローバルとローカルの両方のコンテキストをキャプチャできる。
我々は、サンドイッチのConvNeXtベースのプリ/ポストプロセッサで学習可能なスケーリングモジュールを活用し、よりコンパクトな潜在表現を正確に抽出する。
論文 参考訳(メタデータ) (2023-07-12T11:32:02Z) - Efficient Contextformer: Spatio-Channel Window Attention for Fast
Context Modeling in Learned Image Compression [1.9249287163937978]
学習画像に対する変換器に基づく自己回帰的文脈モデルである、効率的なコンテキストフォーマ(eContextformer)を導入する。
並列コンテキストモデリングのためのパッチワイド、チェッカー、チャンネルワイドのグルーピングテクニックを融合する。
モデル複雑性が145倍、デコード速度が210Cx向上し、Kodak、CLI、Tecnickデータセット上での平均ビット節約を実現している。
論文 参考訳(メタデータ) (2023-06-25T16:29:51Z) - AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation [51.82915587228898]
インタラクティブイメージ(IIS)のためのトランスフォーマーベースのマスク適応セグメンテーションフレームワークであるAdaptiveClickを紹介した。
Click-Aware Mask-Adaptive Transformer Decoder (CAMD) はクリックと画像の特徴の相互作用を強化する。
通常のViTバックボーンでは、9つのデータセットに対する広範な実験結果から、AdaptiveClickが最先端の手法よりも優れていることが示される。
論文 参考訳(メタデータ) (2023-05-07T13:47:35Z) - Learned Image Compression with Mixed Transformer-CNN Architectures [21.53261818914534]
本稿では, 並列トランスフォーマー-CNN混合ブロック(TCM)を提案する。
近年のエントロピー推定モデルとアテンションモジュールの進歩に触発されて,パラメータ効率の高いスウィントランスフォーマーに基づくアテンションを持つチャネルワイドエントロピーモデルを提案する。
実験により,提案手法が最先端の速度歪み性能を実現することを示す。
論文 参考訳(メタデータ) (2023-03-27T08:19:01Z) - FastMIM: Expediting Masked Image Modeling Pre-training for Vision [65.47756720190155]
FastMIMは低解像度の入力画像で視覚バックボーンを事前訓練するためのフレームワークである。
入力画像のRGB値の代わりに、向き付け勾配のヒストグラム(Histograms of Oriented Gradients,HOG)機能を再構成する。
ViT-B/Swin-Bをバックボーンとし、ImageNet-1Kで83.8%/84.1%のトップ1の精度を達成できる。
論文 参考訳(メタデータ) (2022-12-13T14:09:32Z) - VLDeformer: Learning Visual-Semantic Embeddings by Vision-Language
Transformer Decomposing [7.890230091463883]
視覚言語変換器(VL変換器)は、クロスモーダル検索において顕著な精度を示している。
本稿では,単一の画像やテキストに対して,VL変換器を個別エンコーダとして変更するための新しい視覚言語変換器分解(VLDeformer)を提案する。
論文 参考訳(メタデータ) (2021-10-20T09:00:51Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。