論文の概要: MatIR: A Hybrid Mamba-Transformer Image Restoration Model
- arxiv url: http://arxiv.org/abs/2501.18401v1
- Date: Thu, 30 Jan 2025 14:55:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:14:57.922228
- Title: MatIR: A Hybrid Mamba-Transformer Image Restoration Model
- Title(参考訳): MatIR:ハイブリッドマンバトランスフォーマー画像復元モデル
- Authors: Juan Wen, Weiyan Hou, Luc Van Gool, Radu Timofte,
- Abstract要約: そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
- 参考スコア(独自算出の注目度): 95.17418386046054
- License:
- Abstract: In recent years, Transformers-based models have made significant progress in the field of image restoration by leveraging their inherent ability to capture complex contextual features. Recently, Mamba models have made a splash in the field of computer vision due to their ability to handle long-range dependencies and their significant computational efficiency compared to Transformers. However, Mamba currently lags behind Transformers in contextual learning capabilities. To overcome the limitations of these two models, we propose a Mamba-Transformer hybrid image restoration model called MatIR. Specifically, MatIR cross-cycles the blocks of the Transformer layer and the Mamba layer to extract features, thereby taking full advantage of the advantages of the two architectures. In the Mamba module, we introduce the Image Inpainting State Space (IRSS) module, which traverses along four scan paths to achieve efficient processing of long sequence data. In the Transformer module, we combine triangular window-based local attention with channel-based global attention to effectively activate the attention mechanism over a wider range of image pixels. Extensive experimental results and ablation studies demonstrate the effectiveness of our approach.
- Abstract(参考訳): 近年、トランスフォーマーをベースとしたモデルでは、複雑なコンテキスト特徴をキャプチャする固有の能力を活用して、画像復元の分野で大きな進歩を遂げている。
近年,長距離依存の処理能力や,トランスフォーマーと比較して計算効率が著しく向上しているため,コンピュータビジョンの分野では,Mambaモデルが注目されている。
しかし、現在Mambaは文脈学習機能でTransformersに遅れを取っている。
これら2つのモデルの限界を克服するため、MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
具体的には、MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出し、2つのアーキテクチャの利点を最大限に活用する。
Mambaモジュールでは、4つのスキャンパスに沿って横断し、長いシーケンスデータの効率的な処理を実現するImage Inpainting State Space (IRSS)モジュールを導入している。
Transformerモジュールでは、三角形のウィンドウベースの局所的な注意とチャネルベースのグローバルな注意を組み合わせることで、より広い範囲の画像画素上での注意機構を効果的に活性化する。
大規模な実験結果とアブレーション研究は,我々のアプローチの有効性を実証している。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - Why mamba is effective? Exploit Linear Transformer-Mamba Network for Multi-Modality Image Fusion [15.79138560700532]
我々はTmambaと呼ばれる2分岐画像融合ネットワークを提案する。
線形トランスフォーマーとMambaで構成されており、線形複雑性を維持しながらグローバルなモデリング機能を備えている。
実験の結果、我々のTmambaは赤外線可視画像融合や医用画像融合など、複数の融合タスクにおいて有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-09-05T03:42:11Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - Mamba-UIE: Enhancing Underwater Images with Physical Model Constraint [6.2101866921752285]
水中画像強調(UIE)では、畳み込みニューラルネットワーク(CNN)は長距離依存関係のモデリングに固有の制限がある。
本研究では,物理モデルによる制約に基づく水中画像強調フレームワークであるMamba-UIEを提案する。
提案したMamba-UIEは既存の最先端手法よりも優れており,PSNRは27.13で,SSIMは0.93である。
論文 参考訳(メタデータ) (2024-07-27T13:22:10Z) - MxT: Mamba x Transformer for Image Inpainting [11.447968918063335]
Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
論文 参考訳(メタデータ) (2024-07-23T02:21:11Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - ReMamber: Referring Image Segmentation with Mamba Twister [51.291487576255435]
ReMamberは、マルチモーダルなMamba TwisterブロックとMambaのパワーを統合する新しいRISアーキテクチャである。
Mamba Twisterは画像とテキストのインタラクションを明示的にモデル化し、独自のチャネルと空間的ツイスト機構を通じてテキストと視覚的特徴を融合する。
論文 参考訳(メタデータ) (2024-03-26T16:27:37Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。