論文の概要: MambaIR: A Simple Baseline for Image Restoration with State-Space Model
- arxiv url: http://arxiv.org/abs/2402.15648v1
- Date: Fri, 23 Feb 2024 23:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:42:04.035587
- Title: MambaIR: A Simple Baseline for Image Restoration with State-Space Model
- Title(参考訳): MambaIR: ステートスペースモデルによる画像復元のためのシンプルなベースライン
- Authors: Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia
- Abstract要約: 本研究では,画像復元のためのベンチマークモデルMambaIRを提案する。
本稿では,コンボリューションとチャネルアテンションを利用して,バニラマンバの能力を高めるResidual State Space Blockを提案する。
例えば、MambaIRはTransformerベースのベースラインSwinIRを0.36dBまで上回り、同様の計算コストを用いるが、大域的な受容場を持つ。
- 参考スコア(独自算出の注目度): 49.618686676293926
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent years have witnessed great progress in image restoration thanks to the
advancements in modern deep neural networks e.g. Convolutional Neural Network
and Transformer. However, existing restoration backbones are usually limited
due to the inherent local reductive bias or quadratic computational complexity.
Recently, Selective Structured State Space Model e.g., Mamba, has shown great
potential for long-range dependencies modeling with linear complexity, but it
is still under-explored in low-level computer vision. In this work, we
introduce a simple but strong benchmark model, named MambaIR, for image
restoration. In detail, we propose the Residual State Space Block as the core
component, which employs convolution and channel attention to enhance the
capabilities of the vanilla Mamba. In this way, our MambaIR takes advantage of
local patch recurrence prior as well as channel interaction to produce
restoration-specific feature representation. Extensive experiments demonstrate
the superiority of our method, for example, MambaIR outperforms
Transformer-based baseline SwinIR by up to 0.36dB, using similar computational
cost but with a global receptive field. Code is available at
\url{https://github.com/csguoh/MambaIR}.
- Abstract(参考訳): 近年,畳み込みニューラルネットワークやトランスフォーマーなど,最新の深層ニューラルネットワークの進歩により,画像復元が大きな進展を遂げている。
しかしながら、既存の復元バックボーンは通常、固有の局所還元バイアスや二次計算の複雑さのために制限される。
近年、Selective Structured State Space Model(例えばMamba)は、線形複雑性を伴う長距離依存モデリングに大きな可能性を示しているが、まだ低レベルコンピュータビジョンでは未探索である。
本研究では,画像復元のための簡易かつ強固なベンチマークモデルであるmambairを導入する。
具体的には,バニラマンバの能力を高めるために畳み込みとチャネルアテンションを用いた残留状態空間ブロックをコアコンポーネントとして提案する。
このように、我々のMambaIRは、局所的なパッチの再発とチャネル間相互作用を利用して、復元固有の特徴表現を生成する。
例えば、MambaIRはTransformerベースのベースラインSwinIRを0.36dBまで上回り、同様の計算コストを用いるが、大域的な受容場を持つ。
コードは \url{https://github.com/csguoh/MambaIR} で入手できる。
関連論文リスト
- VMamba: Visual State Space Model [96.83847407325486]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、視覚表現学習の最も一般的な2つの基礎モデルである。
計算効率を向上しつつ,これらのコンポーネントを継承する新しいアーキテクチャを提案する。
空間領域を横断するクロススキャンモジュール(CSM)を導入し,任意の非因果的視覚画像を順序付きパッチシーケンスに変換する。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - MsDC-DEQ-Net: Deep Equilibrium Model (DEQ) with Multi-scale Dilated
Convolution for Image Compressive Sensing (CS) [0.0]
圧縮センシング(CS)は、従来のサンプリング法よりも少ない測定値を用いてスパース信号の回復を可能にする技術である。
我々はCSを用いた自然画像再構成のための解釈可能かつ簡潔なニューラルネットワークモデルを構築した。
MsDC-DEQ-Netと呼ばれるこのモデルは、最先端のネットワークベースの手法と比較して、競争力のある性能を示す。
論文 参考訳(メタデータ) (2024-01-05T16:25:58Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - ReTR: Modeling Rendering Via Transformer for Generalizable Neural
Surface Reconstruction [24.596408773471477]
レコンストラクションTRansformer (ReTR) は、トランスフォーマーアーキテクチャをレンダリングプロセスに活用する新しいフレームワークである。
色空間ではなく高次元の特徴空間内で操作することで、ReTRはソースビューの投影色に対する感度を緩和する。
論文 参考訳(メタデータ) (2023-05-30T08:25:23Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - HUMUS-Net: Hybrid unrolled multi-scale network architecture for
accelerated MRI reconstruction [38.0542877099235]
HUMUS-Netは、暗黙のバイアスと畳み込みの効率を、無ロールでマルチスケールのネットワークにおけるTransformerブロックのパワーと組み合わせたハイブリッドアーキテクチャである。
我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-03-15T19:26:29Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Image Super-Resolution with Cross-Scale Non-Local Attention and
Exhaustive Self-Exemplars Mining [66.82470461139376]
本稿では,再帰型ニューラルネットワークに統合されたCS-NLアテンションモジュールを提案する。
新しいCS-NLと局所的および非局所的非局所的前駆体を強力な再帰核融合セルで組み合わせることで、単一の低分解能画像内でよりクロススケールな特徴相関を見出すことができる。
論文 参考訳(メタデータ) (2020-06-02T07:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。