論文の概要: MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement
- arxiv url: http://arxiv.org/abs/2512.15261v1
- Date: Wed, 17 Dec 2025 10:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.931423
- Title: MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement
- Title(参考訳): MMMamba: パンシャープとゼロショット画像強調のための多機能クロスモーダルコンテキスト統合フレームワーク
- Authors: Yingying Wang, Xuanhua He, Chen Wu, Jialing Huang, Suiyun Zhang, Rui Liu, Xinghao Ding, Haoxuan Che,
- Abstract要約: パンシャーピングは高分解能マルチスペクトル(HRMS)画像の生成を目的として,高分解能パンクロマティック(PAN)画像とそれに対応する低分解能マルチスペクトル(MS)画像を統合する。
従来のCNNベースの手法は、チャネルワイズと固定畳み込み演算子との結合に依存している。
パンシャーピングのためのクロスモーダルなインコンテキスト融合フレームワークであるMMMambaを提案する。
- 参考スコア(独自算出の注目度): 29.94979992704961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pan-sharpening aims to generate high-resolution multispectral (HRMS) images by integrating a high-resolution panchromatic (PAN) image with its corresponding low-resolution multispectral (MS) image. To achieve effective fusion, it is crucial to fully exploit the complementary information between the two modalities. Traditional CNN-based methods typically rely on channel-wise concatenation with fixed convolutional operators, which limits their adaptability to diverse spatial and spectral variations. While cross-attention mechanisms enable global interactions, they are computationally inefficient and may dilute fine-grained correspondences, making it difficult to capture complex semantic relationships. Recent advances in the Multimodal Diffusion Transformer (MMDiT) architecture have demonstrated impressive success in image generation and editing tasks. Unlike cross-attention, MMDiT employs in-context conditioning to facilitate more direct and efficient cross-modal information exchange. In this paper, we propose MMMamba, a cross-modal in-context fusion framework for pan-sharpening, with the flexibility to support image super-resolution in a zero-shot manner. Built upon the Mamba architecture, our design ensures linear computational complexity while maintaining strong cross-modal interaction capacity. Furthermore, we introduce a novel multimodal interleaved (MI) scanning mechanism that facilitates effective information exchange between the PAN and MS modalities. Extensive experiments demonstrate the superior performance of our method compared to existing state-of-the-art (SOTA) techniques across multiple tasks and benchmarks.
- Abstract(参考訳): パンシャーピングは高分解能マルチスペクトル(HRMS)画像の生成を目的として,高分解能パンクロマティック(PAN)画像とそれに対応する低分解能マルチスペクトル(MS)画像を統合する。
効果的な融合を実現するためには、2つのモード間の補完情報を十分に活用することが不可欠である。
従来のCNNベースの手法は、チャネルワイズと固定畳み込み演算子との結合に依存しており、その適応性は様々な空間やスペクトルのバリエーションに制限される。
クロスアテンション機構はグローバルな相互作用を可能にするが、それらは計算的に非効率であり、微粒な対応を希薄にし、複雑なセマンティックな関係を捉えることは困難である。
近年,Multimodal Diffusion Transformer (MMDiT) アーキテクチャの進歩により,画像生成や編集作業において顕著な成功を収めている。
クロスアテンションとは異なり、MMDiTはよりダイレクトで効率的なクロスモーダル情報交換を容易にするためにコンテキスト内コンディショニングを使用している。
本稿では,画像超解像をゼロショットでサポートするための柔軟性を備えたパン・シャーピングのためのクロスモーダル・イン・コンテクスト・フュージョン・フレームワークであるMMMambaを提案する。
本設計は,Mambaアーキテクチャを基盤として,線形計算の複雑度を確保しつつ,相互モーダル間相互作用の強いキャパシティを維持する。
さらに,PANとMSモダリティ間の効果的な情報交換を容易にするマルチモーダルインターリーブ(MI)スキャン機構を提案する。
複数のタスクやベンチマークにまたがる既存のSOTA(State-of-the-art)技術と比較して,本手法の優れた性能を示す。
関連論文リスト
- Towards Unified Semantic and Controllable Image Fusion: A Diffusion Transformer Approach [99.80480649258557]
DiTFuseは命令駆動のフレームワークで、単一のモデル内でセマンティクスを意識した融合を実行する。
パブリックなIVIF、MFF、MEFベンチマークの実験では、より優れた量的および質的な性能、よりシャープなテクスチャ、より優れたセマンティック保持が確認されている。
論文 参考訳(メタデータ) (2025-12-08T05:04:54Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Task-Generalized Adaptive Cross-Domain Learning for Multimodal Image Fusion [15.666336202108862]
MMIF(Multimodal Image Fusion)は、個々のセンサーの限界を克服するために、様々な画像モダリティから補完的な情報を統合することを目的としている。
現在のMMIF法は、モダリティの誤り、高周波詳細破壊、タスク固有の制限といった課題に直面している。
適応型クロスドメイン・コフュージョン学習によるタスク一般化MMIFのための新しいフレームワークであるAdaSFFuseを提案する。
論文 参考訳(メタデータ) (2025-08-21T12:31:14Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Fusion from Decomposition: A Self-Supervised Approach for Image Fusion and Beyond [74.96466744512992]
画像融合の本質は、ソース画像からの相補的な情報を統合することである。
DeFusion++は、画像融合の品質を高め、下流の高レベル視覚タスクの有効性を高める、汎用的な融合表現を生成する。
論文 参考訳(メタデータ) (2024-10-16T06:28:49Z) - FusionMamba: Dynamic Feature Enhancement for Multimodal Image Fusion with Mamba [19.761723108363796]
FusionMamba はコンピュータビジョンタスクにおいて CNN や Vision Transformers (ViT) が直面する課題を克服することを目的としている。
このフレームワークは動的畳み込みとチャネルアテンション機構を統合することで、視覚的状態空間モデルMambaを改善している。
実験により、FusionMambaは様々なマルチモーダル画像融合タスクや下流実験で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-04-15T06:37:21Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Equivariant Multi-Modality Image Fusion [124.11300001864579]
エンドツーエンドの自己教師型学習のための同変多モードImAge融合パラダイムを提案する。
我々のアプローチは、自然画像応答が特定の変換に等しくなるという以前の知識に根ざしている。
実験により、EMMAは赤外線可視画像と医用画像に高品質な融合結果をもたらすことが確認された。
論文 参考訳(メタデータ) (2023-05-19T05:50:24Z) - Multi-scale Transformer Network with Edge-aware Pre-training for
Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。
既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。
マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T11:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。