論文の概要: Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement
- arxiv url: http://arxiv.org/abs/2408.00629v1
- Date: Thu, 1 Aug 2024 15:14:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 20:16:43.409001
- Title: Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement
- Title(参考訳): スナップショット圧縮イメージングの強化:クロススキャンと局所強調による空間スペクトル状態空間モデル
- Authors: Wenzhe Tian, Haijin Zeng, Yin-Ping Zhao, Yongyong Chen, Zhen Wang, Xuelong Li,
- Abstract要約: AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
- 参考スコア(独自算出の注目度): 51.557804095896174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Snapshot Compressive Imaging (SCI) relies on decoding algorithms such as CNN or Transformer to reconstruct the hyperspectral image (HSI) from its compressed measurement. Although existing CNN and Transformer-based methods have proven effective, CNNs are limited by their inadequate modeling of long-range dependencies, while Transformer ones face high computational costs due to quadratic complexity. Recent Mamba models have demonstrated superior performance over CNN and Transformer-based architectures in some visual tasks, but these models have not fully utilized the local similarities in both spatial and spectral dimensions. Moreover, the long-sequence modeling capability of SSM may offer an advantage in processing the numerous spectral bands for HSI reconstruction, which has not yet been explored. In this paper, we introduce a State Space Model with Across-Scanning and Local Enhancement, named ASLE-SSM, that employs a Spatial-Spectral SSM for global-local balanced context encoding and cross-channel interaction promoting. Specifically, we introduce local scanning in the spatial dimension to balance the global and local receptive fields, and then propose our across-scanning method based on spatial-spectral local cubes to leverage local similarities between adjacent spectral bands and pixels to guide the reconstruction process. These two scanning mechanisms extract the HSI's local features while balancing the global perspective without any additional costs. Experimental results illustrate ASLE-SSM's superiority over existing state-of-the-art methods, with an inference speed 2.4 times faster than Transformer-based MST and saving 0.12 (M) of parameters, achieving the lowest computational cost and parameter count.
- Abstract(参考訳): Snapshot Compressive Imaging (SCI)は、CNNやTransformerのようなデコードアルゴリズムを使って、圧縮された測定値からハイパースペクトル画像(HSI)を再構成する。
既存のCNNとTransformerベースの手法は有効であることが証明されているが、CNNは長距離依存の不十分なモデリングによって制限されている。
最近のMambaモデルは、いくつかの視覚的タスクにおいてCNNやTransformerベースのアーキテクチャよりも優れた性能を示しているが、これらのモデルは空間次元とスペクトル次元の両方において局所的な類似性を十分に活用していない。
さらに、SSMの長い系列モデリング能力は、まだ探索されていないHSI再構成のための多くのスペクトル帯域の処理に有利である可能性がある。
本稿では,Across-Scanning and Local Enhancement(ASLE-SSM)と呼ばれる状態空間モデルを提案する。
具体的には、大域的および局所的な受容場のバランスをとるために空間次元の局所走査を導入し、次いで、近接するスペクトルバンドとピクセルの局所類似性を生かして再構成プロセスを導くために、空間スペクトル局所立方体に基づくクロススキャン手法を提案する。
これら2つの走査機構は、追加コストなしでグローバルな視点のバランスをとりながら、HSIの局所的な特徴を抽出する。
実験結果から,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約でき,計算コストとパラメータ数が最も低い。
関連論文リスト
- Detail Matters: Mamba-Inspired Joint Unfolding Network for Snapshot Spectral Compressive Imaging [40.80197280147993]
本研究では,HSI再建の非線形および不適切な特徴を克服するために,マンバインスパイアされたジョイント・アンフォールディング・ネットワーク(MiJUN)を提案する。
本稿では,初期最適化段階への依存を減らすために,高速化された展開ネットワーク方式を提案する。
テンソルモード-$k$展開をMambaネットワークに統合することにより,Mambaによる走査戦略を洗練する。
論文 参考訳(メタデータ) (2025-01-02T13:56:23Z) - MAL: Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance [2.45239928345171]
MAL(Cluster-Masked and Multi-Task Pretraining for Enhanced xLSTM Vision Performance)を導入する。
本稿では,局所的な特徴の捕捉を大幅に改善し,画像スキャン効率を最適化するクラスタマスキング手法を提案する。
我々のユニバーサルエンコーダ・デコーダ事前訓練アプローチは、画像自己回帰、深さ推定、画像分割を含む複数のタスクを統合し、様々な視覚的タスクにおけるモデルの適応性と堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-12-14T07:58:24Z) - Scalable Visual State Space Model with Fractal Scanning [16.077348474371547]
State Space Models (SSM) はTransformerモデルの効率的な代替品として登場した。
本稿では, フラクタル走査曲線を用いたパッチシリアライゼーションを提案する。
画像分類,検出,セグメンテーションタスクにおいて,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:12:11Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。
MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。
3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-20T13:19:02Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Exploring Effective Mask Sampling Modeling for Neural Image Compression [171.35596121939238]
既存のニューラルイメージ圧縮手法の多くは、空間的冗長性を排除するために、ハイパープライアモデルやコンテキストモデルからのサイド情報に依存している。
近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。
提案手法は,最先端画像圧縮法と比較して計算複雑性の低い競合性能を実現する。
論文 参考訳(メタデータ) (2023-06-09T06:50:20Z) - Calibrated Hyperspectral Image Reconstruction via Graph-based
Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。
既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。
このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。
マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T09:39:13Z) - Adaptive Gradient Balancing for UndersampledMRI Reconstruction and
Image-to-Image Translation [60.663499381212425]
本研究では,新しい適応勾配バランス手法を併用したwasserstein生成逆ネットワークを用いて,画質の向上を図る。
MRIでは、他の技術よりも鮮明な画像を生成する高品質の再構築を維持しながら、アーティファクトを最小限に抑えます。
論文 参考訳(メタデータ) (2021-04-05T13:05:22Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。