論文の概要: ColorMamba: Towards High-quality NIR-to-RGB Spectral Translation with Mamba
- arxiv url: http://arxiv.org/abs/2408.08087v1
- Date: Thu, 15 Aug 2024 11:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 14:05:59.318194
- Title: ColorMamba: Towards High-quality NIR-to-RGB Spectral Translation with Mamba
- Title(参考訳): ColorMamba: Mambaによる高品質NIR-to-RGBスペクトル変換を目指して
- Authors: Huiyu Zhai, Guang Jin, Xingxing Yang, Guosheng Kang,
- Abstract要約: NIRを可視光スペクトルに変換することは、クロスドメインの複雑さのために困難である。
現在のモデルは、幅広い受容領域と計算効率のバランスをとるのに苦労し、実用的使用を制限している。
そこで我々は,まずスペクトル翻訳タスクにマンバを導入し,カラーマンバ(ColorMamba)という,シンプルで効果的なバックボーンを提案する。
- 参考スコア(独自算出の注目度): 0.12499537119440242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translating NIR to the visible spectrum is challenging due to cross-domain complexities. Current models struggle to balance a broad receptive field with computational efficiency, limiting practical use. Although the Selective Structured State Space Model, especially the improved version, Mamba, excels in generative tasks by capturing long-range dependencies with linear complexity, its default approach of converting 2D images into 1D sequences neglects local context. In this work, we propose a simple but effective backbone, dubbed ColorMamba, which first introduces Mamba into spectral translation tasks. To explore global long-range dependencies and local context for efficient spectral translation, we introduce learnable padding tokens to enhance the distinction of image boundaries and prevent potential confusion within the sequence model. Furthermore, local convolutional enhancement and agent attention are designed to improve the vanilla Mamba. Moreover, we exploit the HSV color to provide multi-scale guidance in the reconstruction process for more accurate spectral translation. Extensive experiments show that our ColorMamba achieves a 1.02 improvement in terms of PSNR compared with the state-of-the-art method. Our code is available at https://github.com/AlexYangxx/ColorMamba.
- Abstract(参考訳): NIRを可視光スペクトルに変換することは、クロスドメインの複雑さのために困難である。
現在のモデルは、幅広い受容領域と計算効率のバランスをとるのに苦労し、実用的使用を制限している。
Selective Structured State Space Model、特に改良版であるMambaは、線形複雑性で長距離依存関係をキャプチャすることで、生成タスクを優れているが、2D画像を1Dシーケンスに変換するというデフォルトのアプローチは、ローカルコンテキストを無視している。
そこで本研究では,まずスペクトル翻訳タスクにマンバを導入し,カラーマンバ(ColorMamba)という,シンプルで効果的なバックボーンを提案する。
グローバルな長距離依存関係と局所コンテキストを探索し、効率的なスペクトル変換を行うため、画像境界の区別を強化し、シーケンスモデル内での潜在的な混乱を防止するために学習可能なパディングトークンを導入する。
さらに、バニラ・マンバを改善するために、局所的な畳み込みの強化とエージェントの注意が設計されている。
さらに、HSV色を利用して、より正確なスペクトル変換を行うために、再構成プロセスにおけるマルチスケールガイダンスを提供する。
広汎な実験により、我々のColorMambaは、最先端の手法と比較してPSNRの1.02の改善を実現していることがわかった。
私たちのコードはhttps://github.com/AlexYangxx/ColorMamba.comから入手可能です。
関連論文リスト
- MambaReg: Mamba-Based Disentangled Convolutional Sparse Coding for Unsupervised Deformable Multi-Modal Image Registration [13.146228081053714]
従来の学習に基づくアプローチは、登録ネットワークを解釈不可能なブラックボックスと見なすことが多い。
我々は,マンバの長いシーケンスをキャプチャする強力な能力を統合した新しいマンバベースのアーキテクチャであるマンバレグを提案する。
ネットワークは,マルチモーダル画像間の相関を積極的に捉え,集中的な変形場予測を可能にする。
論文 参考訳(メタデータ) (2024-11-03T01:30:59Z) - V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - MxT: Mamba x Transformer for Image Inpainting [11.447968918063335]
Image Inpaintingは、セマンティック・コヒーレントなコンテンツで画像の欠落した領域や破損した領域を復元することを目的としている。
本稿では,Mambaと変換器を組み合わせたHybrid Module (HM) を相乗的に構成したMxTを提案する。
我々のHMは、ピクセルレベルとパッチレベルの二重レベルの相互作用学習を容易にし、高品質で文脈的精度で画像を再構成するモデルを大幅に強化する。
論文 参考訳(メタデータ) (2024-07-23T02:21:11Z) - PlainMamba: Improving Non-Hierarchical Mamba in Visual Recognition [21.761988930589727]
PlainMambaは、一般的な視覚認識のために設計された単純な非階層的状態空間モデル(SSM)である。
我々は,マンバの選択的走査過程を視覚領域に適応させ,二次元画像から特徴を学習する能力を高める。
私たちのアーキテクチャは、同一のPlainMambaブロックを積み重ねることで、使いやすく、拡張しやすいように設計されています。
論文 参考訳(メタデータ) (2024-03-26T13:35:10Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - MambaIR: A Simple Baseline for Image Restoration with State-Space Model [46.827053426281715]
我々は,バニラ・マンバを改善するために,局部増強とチャンネルアテンションを導入するMambaIRを紹介した。
本手法は,画像SR上でSwinIRを最大0.45dB向上させる。
論文 参考訳(メタデータ) (2024-02-23T23:15:54Z) - Multi-scale Progressive Feature Embedding for Accurate NIR-to-RGB
Spectral Domain Translation [6.580484964018551]
我々は、NIRソース画像をグレースケールターゲットドメインに変換するドメイン翻訳モジュールを導入する。
プログレッシブトレーニング戦略を取り入れることで、両方のタスク領域からの統計的および意味的な知識を効率的に整合させる。
実験により、我々のMPFNetはNIR-to-RGBスペクトル領域変換タスクにおいて最先端の2.55dBより優れていることが示された。
論文 参考訳(メタデータ) (2023-12-26T13:07:45Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。