論文の概要: CMamba: Learned Image Compression with State Space Models
- arxiv url: http://arxiv.org/abs/2502.04988v1
- Date: Fri, 07 Feb 2025 15:07:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:55:48.779382
- Title: CMamba: Learned Image Compression with State Space Models
- Title(参考訳): CMamba: 状態空間モデルによる画像圧縮の学習
- Authors: Zhuojie Wu, Heming Du, Shuyun Wang, Ming Lu, Haiyang Sun, Yandong Guo, Xin Yu,
- Abstract要約: 本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワークを提案する。
具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。
実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 31.10785880342252
- License:
- Abstract: Learned Image Compression (LIC) has explored various architectures, such as Convolutional Neural Networks (CNNs) and transformers, in modeling image content distributions in order to achieve compression effectiveness. However, achieving high rate-distortion performance while maintaining low computational complexity (\ie, parameters, FLOPs, and latency) remains challenging. In this paper, we propose a hybrid Convolution and State Space Models (SSMs) based image compression framework, termed \textit{CMamba}, to achieve superior rate-distortion performance with low computational complexity. Specifically, CMamba introduces two key components: a Content-Adaptive SSM (CA-SSM) module and a Context-Aware Entropy (CAE) module. First, we observed that SSMs excel in modeling overall content but tend to lose high-frequency details. In contrast, CNNs are proficient at capturing local details. Motivated by this, we propose the CA-SSM module that can dynamically fuse global content extracted by SSM blocks and local details captured by CNN blocks in both encoding and decoding stages. As a result, important image content is well preserved during compression. Second, our proposed CAE module is designed to reduce spatial and channel redundancies in latent representations after encoding. Specifically, our CAE leverages SSMs to parameterize the spatial content in latent representations. Benefiting from SSMs, CAE significantly improves spatial compression efficiency while reducing spatial content redundancies. Moreover, along the channel dimension, CAE reduces inter-channel redundancies of latent representations via an autoregressive manner, which can fully exploit prior knowledge from previous channels without sacrificing efficiency. Experimental results demonstrate that CMamba achieves superior rate-distortion performance.
- Abstract(参考訳): Learned Image Compression (lic)は、圧縮効率を達成するために、画像コンテンツ分布のモデル化において、畳み込みニューラルネットワーク(CNN)やトランスフォーマーなどの様々なアーキテクチャを探索してきた。
しかし、計算量が少ない(計算量、パラメータ、FLOP、レイテンシ)にもかかわらず、高速な歪み性能を実現することは依然として困難である。
本稿では,コンボリューションと状態空間モデル(SSM)をベースとした画像圧縮フレームワーク「textit{CMamba}」を提案する。
具体的には、CMambaはContent-Adaptive SSM(CA-SSM)モジュールとContext-Aware Entropy(CAE)モジュールの2つの重要なコンポーネントを紹介している。
まず、SSMは全体的なコンテンツモデリングに優れるが、高周波の詳細を欠く傾向にあることを示した。
対照的に、CNNは局所的な詳細を捉えるのに長けている。
そこで我々は,CA-SSMモジュールを提案する。CA-SSMモジュールは,SSMブロックが抽出したグローバルコンテンツとCNNブロックが取得したローカル詳細を,エンコーディングとデコードの両方の段階で動的に融合することができる。
その結果、圧縮時に重要な画像内容がよく保存される。
第二に,提案するCAEモジュールは符号化後の潜在表現における空間的およびチャネル的冗長性を低減するように設計されている。
具体的には、我々のCAEはSSMを活用し、潜在表現における空間内容のパラメータ化を行う。
CAEはSSMの利点を生かして空間圧縮効率を大幅に向上し,空間内容の冗長性を低減した。
さらに、チャネル次元に沿って、CAEは自己回帰的な方法で遅延表現のチャネル間冗長性を低減し、効率を犠牲にすることなく、以前のチャネルからの知識を完全に活用することができる。
実験の結果,CMambaは高い速度歪み性能が得られることがわかった。
関連論文リスト
- Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Neural-based Video Compression on Solar Dynamics Observatory Images [8.73521037463594]
NASAのソーラー・ダイナミクス・オブザーバトリー(SDO)ミッションは、太陽の日常活動を監視するために膨大なデータを収集する。
データ圧縮は、限られたテレメトリレートによって引き起こされる課題に対処する上で重要な役割を果たす。
本稿では,SDOの画像データ収集における圧縮率の高いニューラルビデオ圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-07-12T21:24:25Z) - MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文 参考訳(メタデータ) (2024-05-24T10:24:30Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - CU-Mamba: Selective State Space Models with Channel Learning for Image Restoration [7.292363114816646]
本稿では,二つの状態空間モデルフレームワークをU-Netアーキテクチャに組み込んだChannel-Aware U-Shaped Mambaモデルを紹介する。
実験は、CU-Mambaが既存の最先端手法よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-04-17T22:02:22Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - A Unified End-to-End Framework for Efficient Deep Image Compression [35.156677716140635]
本稿では,3つの新しい技術に基づくEDIC(Efficient Deep Image Compression)という統合フレームワークを提案する。
具体的には、学習に基づく画像圧縮のためのオートエンコーダスタイルのネットワークを設計する。
EDIC法は,映像圧縮性能を向上させるために,Deep Video Compression (DVC) フレームワークに容易に組み込むことができる。
論文 参考訳(メタデータ) (2020-02-09T14:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。