論文の概要: Content-Aware Mamba for Learned Image Compression
- arxiv url: http://arxiv.org/abs/2508.02192v4
- Date: Fri, 26 Sep 2025 09:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.556926
- Title: Content-Aware Mamba for Learned Image Compression
- Title(参考訳): 学習画像圧縮のためのコンテンツ対応マンバ
- Authors: Yunuo Chen, Zezheng Lyu, Bing He, Hongwei Hu, Qi Wang, Yuan Tian, Li Song, Wenjun Zhang, Guo Lu,
- Abstract要約: 本稿では,その処理を画像コンテンツに動的に適応させるSSMであるContentAware Mamba(CAM)を紹介する。
まず、厳密なスキャンをコンテンツ適応型トークン置換戦略に置き換える。
第二に、状態空間モデルにサンプル固有のグローバルプリエントを注入することで、シーケンシャルな依存関係を克服する。
- 参考スコア(独自算出の注目度): 33.05776457003562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent learned image compression (LIC) leverages Mamba-style state-space models (SSMs) for global receptive fields with linear complexity. However, the standard Mamba adopts content-agnostic, predefined raster (or multi-directional) scans under strict causality. This rigidity hinders its ability to effectively eliminate redundancy between tokens that are content-correlated but spatially distant. We introduce Content-Aware Mamba (CAM), an SSM that dynamically adapts its processing to the image content. Specifically, CAM overcomes prior limitations with two novel mechanisms. First, it replaces the rigid scan with a content-adaptive token permutation strategy to prioritize interactions between content-similar tokens regardless of their location. Second, it overcomes the sequential dependency by injecting sample-specific global priors into the state-space model, which effectively mitigates the strict causality without multi-directional scans. These innovations enable CAM to better capture global redundancy while preserving computational efficiency. Our Content-Aware Mamba-based LIC model (CMIC) achieves state-of-the-art rate-distortion performance, surpassing VTM-21.0 by 15.91%, 21.34%, and 17.58% in BD-rate on the Kodak, Tecnick, and CLIC datasets, respectively. Code and checkpoints will be released later.
- Abstract(参考訳): 近年の学習画像圧縮 (lic) では, 線形複雑性を持つ大域的受容場に対して, マンバ型状態空間モデル (SSM) を利用する。
しかし、標準のMambaは、厳密な因果関係の下で、コンテンツに依存しない、事前定義されたラスタスキャン(もしくは多方向スキャン)を採用する。
この剛性は、内容に関連があるが空間的に遠いトークン間の冗長性を効果的に排除する能力を妨げている。
本稿では、その処理を画像コンテンツに動的に適応させるSSMであるContent-Aware Mamba(CAM)を紹介する。
具体的には、CAMは2つの新しいメカニズムで以前の制限を克服する。
まず、厳密なスキャンをコンテント適応型トークン置換戦略に置き換え、その位置に関係なくコンテント類似トークン間のインタラクションを優先順位付けする。
第二に、サンプル固有のグローバルな先行値を状態空間モデルに注入することで、シーケンシャルな依存関係を克服し、多方向スキャンなしで事実上厳密な因果関係を緩和する。
これらの革新により、CAMは計算効率を保ちながら、グローバルな冗長性をよりよく捉えることができる。
我々のCMIC(Content-Aware Mamba-based LIC model)は,VTM-21.0を15.91%,21.34%,17.58%,Kodak,Tecnick,CLICデータセットをそれぞれ上回り,最先端の速度歪み性能を実現する。
コードとチェックポイントは後でリリースされる。
関連論文リスト
- A2Mamba: Attention-augmented State Space Models for Visual Recognition [45.68176825375723]
本稿では,トランスフォーマー-マンバハイブリッドネットワークアーキテクチャであるA2Mambaを提案する。
A2SSMのキーステップは、空間的にSSMの隠された状態を集約することで、異種交叉アテンションを実行する。
私たちのA2Mambaは、視覚認識タスクにおいて、以前のConvNet-、Transformer-、およびMambaベースのアーキテクチャよりも優れています。
論文 参考訳(メタデータ) (2025-07-22T14:17:08Z) - MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文 参考訳(メタデータ) (2025-06-13T13:22:28Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - HS-Mamba: Full-Field Interaction Multi-Groups Mamba for Hyperspectral Image Classification [1.9526430269580959]
ハイパースペクトル画像の分類のためのフルフィールド相互作用型マルチグループMambaフレームワーク(HS-Mamba)を提案する。
HS-Mambaはデュアルチャネル空間スペクトルエンコーダ(DCSS-encoder)モジュールと軽量グローバルインラインアテンション(LGI-Att)ブランチで構成される。
4つのベンチマークHSIデータセットで最先端の手法より優れたHS-Mambaが提案されている。
論文 参考訳(メタデータ) (2025-04-22T06:13:02Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - MambaIRv2: Attentive State Space Restoration [96.4452232356586]
マンバをベースとした画像復元バックボーンは、最近、グローバルレセプションと計算効率のバランスをとる大きな可能性を証明している。
本稿では,空間復元モデルに到達するために,MambaとViTsに似た非因果モデリング能力を備えたMambaIRv2を提案する。
論文 参考訳(メタデータ) (2024-11-22T12:45:12Z) - StableMamba: Distillation-free Scaling of Large SSMs for Images and Videos [27.604572990625144]
状態空間モデル(SSM)は、状態空間の技術を深層学習に組み込むことにより、新しい文脈モデリング手法を導入した。
マンバベースのアーキテクチャは、パラメータの数に関してスケールが難しいため、ビジョンアプリケーションにとって大きな制限となる。
本稿では,拡張性,堅牢性,性能を向上させるMamba-Attentionインターリーブアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-09-18T10:48:10Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - GroupMamba: Efficient Group-Based Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、最近、四次計算の複雑さで長距離依存を捉えることを約束している。
しかし、純粋にSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最先端の性能を達成するために重要な課題に直面している。
本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文 参考訳(メタデータ) (2024-07-18T17:59:58Z) - MambaVC: Learned Visual Compression with Selective State Spaces [74.29217829932895]
本稿では,SSMに基づくシンプルで強力で効率的な圧縮ネットワークであるMambaVCを紹介する。
MambaVC は2次元選択的走査 (2DSS) モジュールを備えた視覚状態空間 (VSS) ブロックを各ダウンサンプリング後の非線形活性化関数として開発する。
圧縮ベンチマークデータセットでは、MambaVCはより低い計算とメモリオーバーヘッドでより優れたレート歪み性能を達成する。
論文 参考訳(メタデータ) (2024-05-24T10:24:30Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。