論文の概要: CoMiX: Cross-Modal Fusion with Deformable Convolutions for HSI-X Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2411.09023v1
- Date: Wed, 13 Nov 2024 21:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:24:42.061372
- Title: CoMiX: Cross-Modal Fusion with Deformable Convolutions for HSI-X Semantic Segmentation
- Title(参考訳): CoMiX:HSI-Xセマンティックセグメンテーションのための変形可能な畳み込みを用いたクロスモーダルフュージョン
- Authors: Xuming Zhang, Xingfa Gu, Qingjiu Tian, Lorenzo Bruzzone,
- Abstract要約: CoMiXは非対称エンコーダデコーダアーキテクチャであり、HSI-Xセマンティックセマンティックセグメンテーションのための変形可能な畳み込み(DCN)を備えている。
CoMiXは、HSIおよびXデータから情報を抽出し、校正し、ヒューズするように設計されている。
- 参考スコア(独自算出の注目度): 10.26122715098048
- License:
- Abstract: Improving hyperspectral image (HSI) semantic segmentation by exploiting complementary information from a supplementary data type (referred to X-modality) is promising but challenging due to differences in imaging sensors, image content, and resolution. Current techniques struggle to enhance modality-specific and modality-shared information, as well as to capture dynamic interaction and fusion between different modalities. In response, this study proposes CoMiX, an asymmetric encoder-decoder architecture with deformable convolutions (DCNs) for HSI-X semantic segmentation. CoMiX is designed to extract, calibrate, and fuse information from HSI and X data. Its pipeline includes an encoder with two parallel and interacting backbones and a lightweight all-multilayer perceptron (ALL-MLP) decoder. The encoder consists of four stages, each incorporating 2D DCN blocks for the X model to accommodate geometric variations and 3D DCN blocks for HSIs to adaptively aggregate spatial-spectral features. Additionally, each stage includes a Cross-Modality Feature enhancement and eXchange (CMFeX) module and a feature fusion module (FFM). CMFeX is designed to exploit spatial-spectral correlations from different modalities to recalibrate and enhance modality-specific and modality-shared features while adaptively exchanging complementary information between them. Outputs from CMFeX are fed into the FFM for fusion and passed to the next stage for further information learning. Finally, the outputs from each FFM are integrated by the ALL-MLP decoder for final prediction. Extensive experiments demonstrate that our CoMiX achieves superior performance and generalizes well to various multimodal recognition tasks. The CoMiX code will be released.
- Abstract(参考訳): 超スペクトル画像(HSI)セマンティックセマンティックセグメンテーションの改善は, 画像センサ, 画像内容, 解像度の違いから, 補足データ型(X-モダリティを参照)からの補足情報を活用することで期待できるが, 難しい。
現在の技術は、モダリティ特化情報とモダリティ共有情報を強化し、動的相互作用と異なるモダリティ間の融合を捉えるのに苦労している。
本研究は,HSI-Xセマンティックセグメンテーションのための変形可能な畳み込み(DCN)を備えた非対称エンコーダデコーダアーキテクチャであるCoMiXを提案する。
CoMiXは、HSIおよびXデータから情報を抽出し、校正し、ヒューズするように設計されている。
パイプラインには、2つの並列で相互作用するバックボーンを持つエンコーダと、軽量な全多層パーセプトロン(ALL-MLP)デコーダが含まれている。
エンコーダは4つのステージから構成されており、それぞれXモデルの2次元DCNブロックを組み込んで幾何学的変動に対応させ、HSIの3次元DCNブロックは空間スペクトルの特徴を適応的に集約する。
さらに、各ステージにはCross-Modality Feature enhancement and eXchange (CMFeX)モジュールとFeature fusion Module (FFM)が含まれている。
CMFeXは、異なるモーダルからの空間スペクトル相関を利用して、それらの相補的情報を適応的に交換しながら、モダリティ固有の特徴とモダリティ共有の特徴を再検討し、拡張するように設計されている。
CMFeXからの出力は融合のためにFFMに送られ、さらなる情報学習のために次のステージに渡される。
最後に、各FFMからの出力をALL-MLPデコーダで統合して最終的な予測を行う。
大規模な実験により,CoMiXは優れた性能を示し,様々なマルチモーダル認識タスクに適していることが示された。
CoMiXコードはリリースされる。
関連論文リスト
- FIF-UNet: An Efficient UNet Using Feature Interaction and Fusion for Medical Image Segmentation [5.510679875888542]
FIF-UNetと呼ばれる新しいU字型モデルが3つのプラグ・アンド・プレイモジュールを含む上記の問題に対処するために提案されている。
SynapseとACDCデータセットの実験は、提案されたFIF-UNetが既存の最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2024-09-09T04:34:47Z) - StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - Local-to-Global Cross-Modal Attention-Aware Fusion for HSI-X Semantic Segmentation [19.461033552684576]
HSI-X分類のためのローカル・グローバル・クロスモーダル・アテンション・アウェア・フュージョン(LoGoCAF)フレームワークを提案する。
LoGoCAFは、HSIとXのモダリティから情報を学ぶために、ピクセルからピクセルまでのセマンティックセマンティックセマンティックセマンティクスアーキテクチャを採用している。
論文 参考訳(メタデータ) (2024-06-25T16:12:20Z) - P-MSDiff: Parallel Multi-Scale Diffusion for Remote Sensing Image Segmentation [8.46409964236009]
拡散モデルとマルチスケール機能はセグメンテーションタスクにおいて不可欠な要素である。
並列なマルチスケール分岐を持つ拡散モデルとして知られるセマンティックセグメンテーションの新しいモデルを提案する。
我々のモデルは、UAVidとVayhingen Buildingのデータセットに基づいて、J1測定値に基づいて、優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-05-30T19:40:08Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - MOSformer: Momentum encoder-based inter-slice fusion transformer for
medical image segmentation [15.94370954641629]
2.5Dベースのセグメンテーションモデルは、しばしば各スライスを等しく扱い、スライス間の情報を効果的に学習し活用することができない。
この問題を解決するために,新しいMomentumエンコーダを用いたスライス間核融合トランス (MOSformer) を提案する。
MOSformerは3つのベンチマークデータセット(Synapse、ACDC、AMOS)で評価され、それぞれ85.63%、92.19%、85.43%の新たな最先端技術を確立する。
論文 参考訳(メタデータ) (2024-01-22T11:25:59Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。