論文の概要: IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model
- arxiv url: http://arxiv.org/abs/2405.09873v1
- Date: Thu, 16 May 2024 07:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-17 15:01:20.827493
- Title: IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model
- Title(参考訳): IRSRMamba: マンバを用いたウェーブレット変換特徴変調モデルによる赤外画像超解像
- Authors: Yongsong Huang, Tomo Miyazaki, Xiaofeng Liu, Shinichiro Omachi,
- Abstract要約: 赤外(IR)画像の超解像は、均質な背景画素分布とスパースターゲット領域の課題に直面している。
マンバをベースとした(選択的構造化状態空間モデル)モデルの最近の進歩は、視覚タスクにおいて大きな可能性を示している。
IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model。
- 参考スコア(独自算出の注目度): 7.842507196763463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infrared (IR) image super-resolution faces challenges from homogeneous background pixel distributions and sparse target regions, requiring models that effectively handle long-range dependencies and capture detailed local-global information. Recent advancements in Mamba-based (Selective Structured State Space Model) models, employing state space models, have shown significant potential in visual tasks, suggesting their applicability for IR enhancement. In this work, we introduce IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model, a novel Mamba-based model designed specifically for IR image super-resolution. This model enhances the restoration of context-sparse target details through its advanced dependency modeling capabilities. Additionally, a new wavelet transform feature modulation block improves multi-scale receptive field representation, capturing both global and local information efficiently. Comprehensive evaluations confirm that IRSRMamba outperforms existing models on multiple benchmarks. This research advances IR super-resolution and demonstrates the potential of Mamba-based models in IR image processing. Code are available at \url{https://github.com/yongsongH/IRSRMamba}.
- Abstract(参考訳): 赤外線(IR)画像の超解像は、均一な背景画素分布やスパースターゲット領域からの課題に直面し、長距離依存を効果的に処理し、詳細なローカル・グローバル情報を取得するモデルを必要とする。
状態空間モデルを用いたマンバモデル(選択構造状態空間モデル)の最近の進歩は、視覚的タスクに有意な可能性を示しており、IRの強化に適用可能であることを示唆している。
本稿では,マンバをベースとした波長変換特徴変調モデルにより,IR画像の超解像に特化して設計された新しいマンバモデルであるIRRMamba: Infrared Image Super-Resolutionを紹介する。
このモデルは、先進的な依存性モデリング機能を通じて、コンテキストスパースターゲットの詳細の復元を強化する。
さらに、新しいウェーブレット変換特徴変調ブロックは、マルチスケールの受容場表現を改善し、グローバル情報とローカル情報の両方を効率的にキャプチャする。
総合評価では、IRSRMambaは既存のモデルを複数のベンチマークで上回っている。
本研究は, 赤外線超解像を進展させ, 赤外線画像処理におけるマンバモデルの可能性を示す。
コードは \url{https://github.com/yongsongH/IRSRMamba} で公開されている。
関連論文リスト
- An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - Real-World Remote Sensing Image Dehazing: Benchmark and Baseline [19.747354924759104]
実世界のリモートセンシングのハージーなイメージペアの不足により、既存の手法は、主に合成データセットに頼らざるを得なくなった。
実世界のハズー画像とデハズー画像のペアを含む最初の大規模データセットであるRRSHID(Real-World Remote Sensing Hazy Image dataset)を紹介する。
そこで本研究では,実世界のRSIDに適した新しいフレームワークMCAF-Netを提案する。
論文 参考訳(メタデータ) (2025-03-23T07:15:46Z) - Physics-Driven Autoregressive State Space Models for Medical Image Reconstruction [5.208643222679356]
本稿では, 物理駆動型自己回帰状態空間モデル(MambaRoll)を導入し, 医用画像再構成における忠実度を高める。
MambaRollは物理駆動状態空間モジュール(PSSM)に基づく自己回帰フレームワークを使用しており、PSSMは与えられた空間スケールでコンテキスト特徴を効率的に集約する。
MambaRollは、畳み込み、トランスフォーマーおよび従来のSSMモジュールに基づいて、最先端のPD手法より優れている。
論文 参考訳(メタデータ) (2024-12-12T14:59:56Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - RSDehamba: Lightweight Vision Mamba for Remote Sensing Satellite Image Dehazing [19.89130165954241]
リモートセンシング画像デハージング(RSID)は、高品質な画像復元のための不均一かつ物理的に不規則なヘイズ要素を取り除くことを目的としている。
本稿では,RSID分野におけるRSDhambaと呼ばれるマンバモデル上での最初の軽量ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T12:12:07Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - RSMamba: Remote Sensing Image Classification with State Space Model [25.32283897448209]
リモートセンシング画像分類のための新しいアーキテクチャであるRSMambaを紹介する。
RSMamba は State Space Model (SSM) をベースにしており、Mamba として知られる効率的なハードウェアを意識した設計を取り入れている。
非時間画像データのモデル化にマンバの容量を増大させる動的マルチパスアクティベーション機構を提案する。
論文 参考訳(メタデータ) (2024-03-28T17:59:49Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - RBSR: Efficient and Flexible Recurrent Network for Burst
Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。
本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文 参考訳(メタデータ) (2023-06-30T12:14:13Z) - Learning Detail-Structure Alternative Optimization for Blind
Super-Resolution [69.11604249813304]
そこで我々は,ブラインドSRに先立ってカーネルを曖昧にすることなく,再帰的な詳細構造代替最適化を実現する,有効かつカーネルフリーなネットワークDSSRを提案する。
DSSRでは、細部構造変調モジュール(DSMM)が構築され、画像の詳細と構造の相互作用と協調を利用する。
本手法は既存の手法に対して最先端の手法を実現する。
論文 参考訳(メタデータ) (2022-12-03T14:44:17Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Exploiting Digital Surface Models for Inferring Super-Resolution for
Remotely Sensed Images [2.3204178451683264]
本稿では,SRRモデルにリアルなリモートセンシング画像の出力を強制する新しい手法を提案する。
画像の通常のデジタル表面モデル(nDSM)から推定されるピクセルレベルの情報を知覚的損失として特徴空間の類似性に頼る代わりに、モデルが考慮する。
視覚検査に基づいて、推定された超解像画像は、特に優れた品質を示す。
論文 参考訳(メタデータ) (2022-05-09T06:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。