論文の概要: Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion
- arxiv url: http://arxiv.org/abs/2409.01728v1
- Date: Tue, 3 Sep 2024 09:12:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:16:32.314457
- Title: Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion
- Title(参考訳): Shuffle Mamba:マルチモード画像融合のためのランダムシャッフル状態空間モデル
- Authors: Ke Cao, Xuanhua He, Tao Hu, Chengjun Xie, Jie Zhang, Man Zhou, Danfeng Hong,
- Abstract要約: マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
本稿では,固定シーケンススキャンに伴うバイアスを取り除くために,ランダムシャッフルと呼ばれるバイーシアンに着想を得た新しいスキャン手法を提案する。
我々は,モンテカルロ平均化に基づくテスト手法を開発し,モデルの出力が期待される結果とより密に一致することを保証する。
- 参考スコア(独自算出の注目度): 28.543822934210404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal image fusion integrates complementary information from different modalities to produce enhanced and informative images. Although State-Space Models, such as Mamba, are proficient in long-range modeling with linear complexity, most Mamba-based approaches use fixed scanning strategies, which can introduce biased prior information. To mitigate this issue, we propose a novel Bayesian-inspired scanning strategy called Random Shuffle, supplemented by an theoretically-feasible inverse shuffle to maintain information coordination invariance, aiming to eliminate biases associated with fixed sequence scanning. Based on this transformation pair, we customized the Shuffle Mamba Framework, penetrating modality-aware information representation and cross-modality information interaction across spatial and channel axes to ensure robust interaction and an unbiased global receptive field for multi-modal image fusion. Furthermore, we develop a testing methodology based on Monte-Carlo averaging to ensure the model's output aligns more closely with expected results. Extensive experiments across multiple multi-modal image fusion tasks demonstrate the effectiveness of our proposed method, yielding excellent fusion quality over state-of-the-art alternatives. Code will be available upon acceptance.
- Abstract(参考訳): マルチモーダル画像融合は、異なるモーダルからの相補的な情報を統合して、強化された情報的画像を生成する。
Mambaのような状態空間モデルは、線形複雑性を持つ長距離モデリングに熟練しているが、ほとんどのMambaベースのアプローチは、バイアス付き事前情報を導入する固定走査戦略を使用する。
この問題を軽減するために, 理論的に実現可能な逆シャッフルで補足し, 固定シーケンススキャンに伴うバイアスを解消することを目的とした, ベイズにヒントを得た新しいスキャン戦略Random Shuffleを提案する。
この変換ペアに基づいて、Shuffle Mamba Frameworkをカスタマイズし、空間およびチャネル軸間のモダリティ認識情報表現と相互モダリティ情報相互作用を浸透させ、ロバストな相互作用とマルチモーダル画像融合のための非バイアスのグローバル受容場を確保する。
さらに,モンテカルロ平均値に基づくテスト手法を開発し,モデル出力が予測結果とより密に一致するようにした。
複数のマルチモーダル画像融合タスクに対する広範囲な実験により提案手法の有効性が示され、最先端の代替技術よりも優れた融合品質が得られる。
コードは受理後利用可能になる。
関連論文リスト
- MMA-UNet: A Multi-Modal Asymmetric UNet Architecture for Infrared and Visible Image Fusion [4.788349093716269]
MMIF(Multi-modal Image fusion)は、様々なモダリティから有用な情報を同じ表現空間にマッピングする。
既存の融合アルゴリズムは、対称的にマルチモーダル画像を融合する傾向があり、浅い情報や偏りが単一モーダルに対して失われる。
本研究では,異なるモードにおける情報の空間分布の差異を解析し,同一ネットワーク内の符号化特徴が同時に深層特徴空間アライメントを実現するには困難であることを証明した。
論文 参考訳(メタデータ) (2024-04-27T01:35:21Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [17.75933946414591]
マルチモーダル画像融合は、異なるモードからの情報を組み合わせて、1つの画像と詳細なテクスチャを作成することを目的としている。
トランスフォーマーベースのモデルは、グローバルな特徴モデリングに優れているが、その2次複雑さに起因する計算上の課題に直面している。
マルチモーダル画像融合のための動的特徴強調手法FusionMambaを提案する。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - MambaDFuse: A Mamba-based Dual-phase Model for Multi-modality Image Fusion [4.2474907126377115]
MMIF(Multi-modality Image fusion)は、異なるモダリティからの補完情報を単一の融合画像に統合することを目的としている。
本研究では, モーダリティ特異的およびモーダリティ融合特徴を抽出するために, マンバをベースとした2相融合モデル(MambaDFuse)を提案する。
提案手法は,赤外線可視画像融合と医用画像融合において有望な融合を実現する。
論文 参考訳(メタデータ) (2024-04-12T11:33:26Z) - Deep Equilibrium Multimodal Fusion [88.04713412107947]
多重モーダル融合は、複数のモーダルに存在する相補的な情報を統合し、近年多くの注目を集めている。
本稿では,動的多モード核融合プロセスの固定点を求めることにより,多モード核融合に対する新しいDeep equilibrium (DEQ)法を提案する。
BRCA,MM-IMDB,CMU-MOSI,SUN RGB-D,VQA-v2の実験により,DEC融合の優位性が示された。
論文 参考訳(メタデータ) (2023-06-29T03:02:20Z) - A Task-guided, Implicitly-searched and Meta-initialized Deep Model for
Image Fusion [69.10255211811007]
本稿では,課題の多い現実シナリオにおいて,画像融合問題に対処するためのタスク誘導,インプリシト検索,メタ一般化(TIM)深層モデルを提案する。
具体的には、画像融合の教師なし学習プロセスを導くために、下流タスクからの情報を組み込む制約付き戦略を提案する。
このフレームワーク内に暗黙の探索スキームを設計し、高速な融合モデルのためのコンパクトなアーキテクチャを自動で発見する。
論文 参考訳(メタデータ) (2023-05-25T08:54:08Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - DDFM: Denoising Diffusion Model for Multi-Modality Image Fusion [144.9653045465908]
拡散確率モデル(DDPM)に基づく新しい融合アルゴリズムを提案する。
近赤外可視画像融合と医用画像融合で有望な融合が得られた。
論文 参考訳(メタデータ) (2023-03-13T04:06:42Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Cross Attention-guided Dense Network for Images Fusion [6.722525091148737]
本稿では,新しいクロスアテンション誘導画像融合ネットワークを提案する。
マルチモーダル画像融合、マルチ露光画像融合、マルチフォーカス画像融合のための統一的で教師なしのフレームワークである。
以上の結果から,提案モデルが定量的かつ質的に,最先端のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-23T14:22:47Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。