論文の概要: MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression
- arxiv url: http://arxiv.org/abs/2307.15421v9
- Date: Tue, 20 Feb 2024 03:25:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 20:54:18.342734
- Title: MLIC++: Linear Complexity Multi-Reference Entropy Modeling for Learned
Image Compression
- Title(参考訳): mlic++: 学習画像圧縮のための線形複雑性マルチリファレンスエントロピーモデリング
- Authors: Wei Jiang, Jiayu Yang, Yongqi Zhai, Feng Gao, Ronggang Wang
- Abstract要約: 我々はMEM++を導入し、潜在表現に固有の様々な相関関係をキャプチャする。
MEM++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
- 参考スコア(独自算出の注目度): 30.71965784982577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, learned image compression has achieved impressive performance. The
entropy model, which estimates the distribution of the latent representation,
plays a crucial role in enhancing rate-distortion performance. However,
existing global context modules rely on computationally intensive quadratic
complexity computations to capture global correlations. This quadratic
complexity imposes limitations on the potential of high-resolution image
coding. Moreover, effectively capturing local, global, and channel-wise
contexts with acceptable even linear complexity within a single entropy model
remains a challenge. To address these limitations, we propose the Linear
Complexity Multi-Reference Entropy Model (MEM++). MEM++ effectively captures
the diverse range of correlations inherent in the latent representation.
Specifically, the latent representation is first divided into multiple slices.
When compressing a particular slice, the previously compressed slices serve as
its channel-wise contexts. To capture local contexts without sacrificing
performance, we introduce a novel checkerboard attention module. Additionally,
to capture global contexts, we propose the linear complexity attention-based
global correlations capturing by leveraging the decomposition of the softmax
operation. The attention map of the previously decoded slice is implicitly
computed and employed to predict global correlations in the current slice.
Based on MEM++, we propose image compression model MLIC++. Extensive
experimental evaluations demonstrate that our MLIC++ achieves state-of-the-art
performance, reducing BD-rate by 13.39% on the Kodak dataset compared to
VTM-17.0 in PSNR. Furthermore, MLIC++ exhibits linear GPU memory consumption
with resolution, making it highly suitable for high-resolution image coding.
Code and pre-trained models are available at
https://github.com/JiangWeibeta/MLIC.
- Abstract(参考訳): 近年,学習画像圧縮の性能が向上している。
潜在表現の分布を推定するエントロピーモデルは、速度分散性能を向上させる上で重要な役割を果たす。
しかし、既存のグローバルコンテキストモジュールは、大域相関を捉えるために計算集約的な二次複雑性計算に依存する。
この二次的な複雑さは高解像度画像符号化の可能性に制限を課す。
さらに、局所的、大域的、チャネル的コンテキストを単一のエントロピーモデル内で許容可能な線形複雑度で効果的に捉えることは課題である。
これらの制約に対処するため,我々は線形複雑性マルチリファレンスエントロピーモデル(mem++)を提案する。
MEM++は、潜在表現に固有の様々な相関関係を効果的にキャプチャする。
具体的には、潜在表現をまず複数のスライスに分割する。
特定のスライスを圧縮する場合、以前圧縮されたスライスはそのチャネルワイズコンテキストとして機能する。
性能を犠牲にすることなくローカルコンテキストをキャプチャするために,新しいチェッカーボードアテンションモジュールを導入する。
さらに,グローバルコンテキストを捉えるために,ソフトマックス操作の分解を利用した線形複雑性注意に基づくグローバル相関手法を提案する。
予め復号されたスライスのアテンションマップは暗黙的に計算され、現在のスライスにおけるグローバル相関を予測するために使用される。
MEM++に基づく画像圧縮モデルMLIC++を提案する。
大規模な実験により、我々のMLIC++は最先端のパフォーマンスを実現し、PSNRのVTM-17.0と比較して、KodakデータセットのBDレートを13.39%削減した。
さらに、MLIC++はリニアGPUメモリを解像度で表示し、高解像度の画像符号化に非常に適している。
コードと事前訓練されたモデルはhttps://github.com/JiangWeibeta/MLIC.comで入手できる。
関連論文リスト
- LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Hierarchical Integration Diffusion Model for Realistic Image Deblurring [71.76410266003917]
拡散モデル (DM) は画像劣化に導入され, 有望な性能を示した。
本稿では,階層型統合拡散モデル(HI-Diff)を提案する。
人工的および実世界のぼかしデータセットの実験は、HI-Diffが最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2023-05-22T12:18:20Z) - MLIC: Multi-Reference Entropy Model for Learned Image Compression [28.63380127598021]
本稿では,マルチ参照エントロピーモデル(MEM)と高度なバージョンであるMEM$+$を提案する。
MEM と MEM$+$ に基づいて,画像圧縮モデル MLIC と MLIC$+$ を提案する。
我々のMLICとMLIC$+$モデルは最先端のパフォーマンスを実現し、PSNRで測定されたVTM-17.0と比較して、KodakデータセットのBDレートを8.05%、11.39%削減した。
論文 参考訳(メタデータ) (2022-11-14T11:07:18Z) - GOLLIC: Learning Global Context beyond Patches for Lossless
High-Resolution Image Compression [10.065286986365697]
本稿では,高解像度画像の長期依存性を捉えるために,大域的コンテキストを持つ階層型潜在変数モデルを提案する。
グローバルコンテキストモデルでは,コーデックやディープラーニングモデルと比較して圧縮比が向上することを示す。
論文 参考訳(メタデータ) (2022-10-07T03:15:02Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Joint Global and Local Hierarchical Priors for Learned Image Compression [30.44884350320053]
近年,従来の手書き画像コーデックと比較して,学習画像圧縮法の性能が向上している。
本稿では,ローカル情報とグローバル情報の両方をコンテンツに依存した方法で活用する,情報変換(Information Transformer, Informer)と呼ばれる新しいエントロピーモデルを提案する。
実験により,Informer はKodak および Tecnick データセットの最先端手法よりも速度歪み性能が向上することを示した。
論文 参考訳(メタデータ) (2021-12-08T06:17:37Z) - Learning Context-Based Non-local Entropy Modeling for Image Compression [140.64888994506313]
本稿では,文脈内でのグローバルな類似性を利用して,文脈モデリングのための非局所的操作を提案する。
エントロピーモデルはさらに、結合速度歪み最適化における速度損失として採用されている。
低歪みモデルのトレーニングに変換の幅が不可欠であることを考えると、最終的に変換のU-Netブロックを生成して、管理可能なメモリ消費と時間複雑性で幅を拡大する。
論文 参考訳(メタデータ) (2020-05-10T13:28:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。