論文の概要: You Can Mask More For Extremely Low-Bitrate Image Compression
- arxiv url: http://arxiv.org/abs/2306.15561v1
- Date: Tue, 27 Jun 2023 15:36:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 12:53:11.354845
- Title: You Can Mask More For Extremely Low-Bitrate Image Compression
- Title(参考訳): 極低ビットレート画像圧縮でもっとマスクできる
- Authors: Anqi Li, Feng Li, Jiaxin Han, Huihui Bai, Runmin Cong, Chunjie Zhang,
Meng Wang, Weisi Lin, Yao Zhao
- Abstract要約: 近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
- 参考スコア(独自算出の注目度): 80.7692466922499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learned image compression (LIC) methods have experienced significant progress
during recent years. However, these methods are primarily dedicated to
optimizing the rate-distortion (R-D) performance at medium and high bitrates (>
0.1 bits per pixel (bpp)), while research on extremely low bitrates is limited.
Besides, existing methods fail to explicitly explore the image structure and
texture components crucial for image compression, treating them equally
alongside uninformative components in networks. This can cause severe
perceptual quality degradation, especially under low-bitrate scenarios. In this
work, inspired by the success of pre-trained masked autoencoders (MAE) in many
downstream tasks, we propose to rethink its mask sampling strategy from
structure and texture perspectives for high redundancy reduction and
discriminative feature representation, further unleashing the potential of LIC
methods. Therefore, we present a dual-adaptive masking approach (DA-Mask) that
samples visible patches based on the structure and texture distributions of
original images. We combine DA-Mask and pre-trained MAE in masked image
modeling (MIM) as an initial compressor that abstracts informative semantic
context and texture representations. Such a pipeline can well cooperate with
LIC networks to achieve further secondary compression while preserving
promising reconstruction quality. Consequently, we propose a simple yet
effective masked compression model (MCM), the first framework that unifies MIM
and LIC end-to-end for extremely low-bitrate image compression. Extensive
experiments have demonstrated that our approach outperforms recent
state-of-the-art methods in R-D performance, visual quality, and downstream
applications, at very low bitrates. Our code is available at
https://github.com/lianqi1008/MCM.git.
- Abstract(参考訳): 近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
しかし、これらの手法は主に中・高ビットレートでのレート歪み(R-D)性能の最適化に特化しているが、極低ビットレートの研究は限られている。
さらに、既存の手法では、画像圧縮に不可欠な画像構造やテクスチャコンポーネントを明示的に探究することはできず、ネットワーク内の非表現コンポーネントと同等に扱うことができる。
これは特に低ビットレートのシナリオにおいて、知覚品質の深刻な劣化を引き起こす可能性がある。
本研究は,多くの下流タスクにおけるマスク付きオートエンコーダ(MAE)の成功に触発されて,そのマスクサンプリング戦略を,高冗長性低減と識別的特徴表現のための構造的・テクスチャ的視点から再考することを提案する。
そこで本研究では,原画像の構造とテクスチャ分布に基づいて,可視パッチをサンプリングする二重適応マスキング手法(DA-Mask)を提案する。
マスキング画像モデリング(MIM)におけるDA-Maskと事前学習MAEを,情報的意味コンテキストとテクスチャ表現を抽象化する初期圧縮機として組み合わせた。
このようなパイプラインは、有望な再構築品質を維持しつつ、さらなる二次圧縮を達成するために、licネットワークとうまく連携することができる。
そこで本研究では,超低ビット画像圧縮のためにmimとlicをエンドツーエンドに統一する最初のフレームワークである,単純かつ効果的なマスク圧縮モデル(mcm)を提案する。
広範にわたる実験により、我々のアプローチは、r-dパフォーマンス、視覚品質、下流アプリケーションにおいて、非常に低いビットレートで最新の最先端の手法を上回ることが証明された。
私たちのコードはhttps://github.com/lianqi1008/MCM.gitで利用可能です。
関連論文リスト
- Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。