論文の概要: DualSwinFusionSeg: Multimodal Martian Landslide Segmentation via Dual Swin Transformer with Multi-Scale Fusion and UNet++
- arxiv url: http://arxiv.org/abs/2603.14132v1
- Date: Sat, 14 Mar 2026 21:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.624442
- Title: DualSwinFusionSeg: Multimodal Martian Landslide Segmentation via Dual Swin Transformer with Multi-Scale Fusion and UNet++
- Title(参考訳): DualSwinFusionSeg: Dual Swin TransformerによるマルチスケールフュージョンとUNet++によるマルチモーダル火星地すべりセグメンテーション
- Authors: Shahriar Kabir, Abdullah Muhammed Amimul Ehsan, Istiak Ahmmed Rifti, Md Kaykobad Reza,
- Abstract要約: モーダリティ固有の特徴抽出を分離し,マルチスケールのクロスモーダル融合を行うマルチモーダルセグメンテーションアーキテクチャであるDualSwinFusionSegを提案する。
このモデルは2つの並列Swin Transformer V2エンコーダを使用して、RGBと補助的な物理入力を独立に処理し、階層的な特徴表現を生成する。
PBVS 2026 Mars-LS ChallengeによるMMLSv2データセットの実験では、モダリティ固有のエンコーダと単純な結合に基づく融合により、限られた訓練データの下でのセグメンテーション精度が向上した。
- 参考スコア(独自算出の注目度): 1.1666234644810893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated segmentation of Martian landslides, particularly in tectonically active regions such as Valles Marineris,is important for planetary geology, hazard assessment, and future robotic exploration. However, detecting landslides from planetary imagery is challenging due to the heterogeneous nature of available sensing modalities and the limited number of labeled samples. Each observation combines RGB imagery with geophysical measurements such as digital elevation models, slope maps, thermal inertia, and contextual grayscale imagery, which differ significantly in resolution and statistical properties. To address these challenges, we propose DualSwinFusionSeg, a multimodal segmentation architecture that separates modality-specific feature extraction and performs multi-scale cross-modal fusion. The model employs two parallel Swin Transformer V2 encoders to independently process RGB and auxiliary geophysical inputs, producing hierarchical feature representations. Corresponding features from the two streams are fused at multiple scales and decoded using a UNet++ decoder with dense nested skip connections to preserve fine boundary details. Extensive ablation studies evaluate modality contributions, loss functions, decoder architectures, and fusion strategies. Experiments on the MMLSv2 dataset from the PBVS 2026 Mars-LS Challenge show that modality-specific encoders and simple concatenation-based fusion improve segmentation accuracy under limited training data. The final model achieves 0.867 mIoU and 0.905 F1 on the development benchmark and 0.783 mIoU on the held-out test set, demonstrating strong performance for multimodal planetary surface segmentation.
- Abstract(参考訳): 火星の地すべり、特にバレス・マリネリスのようなテクトニックな地域での自動セグメンテーションは、惑星地質学、ハザードアセスメント、将来のロボット探査に重要である。
しかし, 惑星画像からの地すべりの検出は, センサ・モードの不均一性や, ラベル付きサンプルの数が限られているため, 困難である。
それぞれの観測は、RGB画像と、デジタル標高モデル、斜面マップ、熱慣性、文脈的グレースケール画像などの物理測度を組み合わせ、解像度と統計特性に大きな違いがある。
これらの課題に対処するため,DualSwinFusionSegを提案する。DualSwinFusionSegはモダリティ固有の特徴抽出を分離し,マルチスケールのクロスモーダル融合を行うマルチモーダルセグメンテーションアーキテクチャである。
このモデルは2つの並列Swin Transformer V2エンコーダを使用して、RGBと補助的な物理入力を独立に処理し、階層的な特徴表現を生成する。
2つのストリームの対応する機能は、複数のスケールで融合され、細かな境界の詳細を保持するために、ネストされたスキップ接続を持つUNet++デコーダを使用してデコードされる。
大規模なアブレーション研究は、モダリティ貢献、損失関数、デコーダアーキテクチャ、融合戦略を評価する。
PBVS 2026 Mars-LS ChallengeによるMMLSv2データセットの実験では、モダリティ固有のエンコーダと単純な結合に基づく融合により、限られた訓練データの下でセグメンテーション精度が向上した。
最終モデルは、開発ベンチマークで0.867 mIoUと0.905 F1、維持テストセットで0.783 mIoUを達成し、マルチモーダル惑星表面セグメンテーションの強力な性能を示す。
関連論文リスト
- M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention [5.485819352754784]
本稿では,M2I2HAと呼ばれるハイパーグラフ理論に基づくマルチモーダル知覚ネットワークを提案する。
我々のアーキテクチャにはハイパーグラフ内拡張モジュールが含まれており、各モダリティ内の大域的な多対多の高次関係をキャプチャする。
Inter-Hypergraph Fusionモジュールは、データソース間のコンフィグレーションと空間ギャップをブリッジすることで、クロスモーダル機能を調整、拡張、フューズする。
論文 参考訳(メタデータ) (2026-01-21T08:55:07Z) - Multispectral State-Space Feature Fusion: Bridging Shared and Cross-Parametric Interactions for Object Detection [48.04749955821739]
MS2Fusionと呼ばれる新しいマルチスペクトル状態空間特徴融合フレームワークが提案されている。
MS2フュージョンはデュアルパスパラメトリック相互作用機構を通じて効率的かつ効果的な融合を実現する。
我々のMS2Fusionは、主要なベンチマーク実験において、他の最先端のマルチスペクトルオブジェクト検出方法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-07-19T14:38:03Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - GAMUS: A Geometry-aware Multi-modal Semantic Segmentation Benchmark for
Remote Sensing Data [27.63411386396492]
本稿では,RGB-Height(RGB-H)データに基づくマルチモーダルセマンティックセマンティックセマンティクスのための新しいベンチマークデータセットを提案する。
提案するベンチマークは,1)共登録RGBとnDSMペアと画素単位のセマンティックラベルを含む大規模データセットと,2)リモートセンシングデータに基づく畳み込みとトランスフォーマーベースのネットワークのための既存のマルチモーダル融合戦略の包括的評価と解析からなる。
論文 参考訳(メタデータ) (2023-05-24T09:03:18Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Two Headed Dragons: Multimodal Fusion and Cross Modal Transactions [14.700807572189412]
本稿では,HSIとLiDARの新たな融合法を提案する。
このモデルは、HSIとLiDARのクロスキー値ペアを利用するスタックされたオートエンコーダで構成されている。
我々はヒューストン(データフュージョン・コンテスト - 2013)とMUUFLガルフポートのデータセットで実験を行い、競争力のある結果を得た。
論文 参考訳(メタデータ) (2021-07-24T11:33:37Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。