論文の概要: SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
- arxiv url: http://arxiv.org/abs/2603.02505v1
- Date: Tue, 03 Mar 2026 01:28:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.594026
- Title: SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data
- Title(参考訳): SGMA:不完全なマルチモーダルデータを用いたリモートセンシングのための意味誘導型モダリティ認識セグメンテーション
- Authors: Lekang Wen, Liang Liao, Jing Xiao, Mi Wang,
- Abstract要約: マルチモーダルセマンティックセグメンテーションは、リモートセンシング地球観測のための多様なセンサーからの補完情報を統合する。
IMSSは3つの主要な課題に直面している:マルチモーダル不均衡、支配的なモダリティが脆弱なモダリティを抑えること、スケール、形状、方向のクラス内変化、矛盾するキーと矛盾するセマンティック応答を生み出すクロスモーダル不均一。
本稿では,セマンティック・ガイド・モダリティ・アウェア(SGMA)フレームワークを提案する。セマンティック・モダリティ・アウェア(SGMA)フレームワークは,クラス内変動の低減とセマンティックガイダンスによる相互不整合の緩和を図りつつ,バランスの取れたマルチモーダル学習を実現する。
- 参考スコア(独自算出の注目度): 31.146366498415784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal semantic segmentation integrates complementary information from diverse sensors for remote sensing Earth observation. However, practical systems often encounter missing modalities due to sensor failures or incomplete coverage, termed Incomplete Multimodal Semantic Segmentation (IMSS). IMSS faces three key challenges: (1) multimodal imbalance, where dominant modalities suppress fragile ones; (2) intra-class variation in scale, shape, and orientation across modalities; and (3) cross-modal heterogeneity with conflicting cues producing inconsistent semantic responses. Existing methods rely on contrastive learning or joint optimization, which risk over-alignment, discarding modality-specific cues or imbalanced training, favoring robust modalities, while largely overlooking intra-class variation and cross-modal heterogeneity. To address these limitations, we propose the Semantic-Guided Modality-Aware (SGMA) framework, which ensures balanced multimodal learning while reducing intra-class variation and reconciling cross-modal inconsistencies through semantic guidance. SGMA introduces two complementary plug-and-play modules: (1) Semantic-Guided Fusion (SGF) module extracts multi-scale, class-wise semantic prototypes that capture consistent categorical representations across modalities, estimates per-modality robustness based on prototype-feature alignment, and performs adaptive fusion weighted by robustness scores to mitigate intra-class variation and cross-modal heterogeneity; (2) Modality-Aware Sampling (MAS) module leverages robustness estimations from SGF to dynamically reweight training samples, prioritizing challenging samples from fragile modalities to address modality imbalance. Extensive experiments across multiple datasets and backbones demonstrate that SGMA consistently outperforms state-of-the-art methods, with particularly significant improvements in fragile modalities.
- Abstract(参考訳): マルチモーダルセマンティックセグメンテーションは、リモートセンシング地球観測のための多様なセンサーからの補完情報を統合する。
しかし、実際のシステムでは、センサーの故障や不完全なカバレッジのため、不完全なマルチモーダルセマンティックセマンティックセマンティックセグメンテーション(IMSS、Incomplete Multimodal Semantic Segmentation)と呼ばれるモダリティが欠落することが多い。
IMSSは,(1)支配的モダリティが脆弱なモダリティを抑制するマルチモーダル不均衡,(2)スケール,形状,方向のクラス内変化,(3)矛盾するセマンティック応答を生じる矛盾するキューとの異種性,という3つの課題に直面している。
既存の手法は対照的な学習や共同最適化に依存しており、過度な調整、モダリティ固有の手がかりの破棄、不均衡な訓練、頑健なモダリティを優先する一方で、クラス内変異やクロスモーダルな異質性を見落としている。
これらの制約に対処するため,セマンティック・ガイド・モダリティ・アウェア(SGMA)フレームワークを提案する。
SGMAは2つの相補的なプラグ・アンド・プレイモジュールを導入している: 1) セマンティック・ガイド・フュージョン(SGF)モジュールは、モダリティ全体にわたる一貫した分類的表現をキャプチャするマルチスケールのクラスワイドなセマンティック・プロトタイプを抽出し、プロトタイプ・ファインアライメントに基づいてモダリティごとのロバスト性を推定し、ロバストネススコアによって重み付けされた適応融合を実行し、クラス内の変動とクロスモーダル・ヘテロジニティを緩和する。
複数のデータセットやバックボーンにわたる大規模な実験は、SGMAが常に最先端の手法よりも優れており、特に脆弱なモダリティが著しく向上していることを示している。
関連論文リスト
- Modality-Specific Enhancement and Complementary Fusion for Semi-Supervised Multi-Modal Brain Tumor Segmentation [6.302779966909783]
医用画像セグメンテーションのための新しい半教師付きマルチモーダルフレームワークを提案する。
モダリティ固有のエンハンシングモジュール(MEM)を導入し、各モダリティに意味的なユニークな手がかりを強化する。
また,学習可能な相補的情報融合(CIF)モジュールを導入し,モダリティ間の相補的知識を適応的に交換する。
論文 参考訳(メタデータ) (2025-12-10T16:15:17Z) - Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - I$^3$-MRec: Invariant Learning with Information Bottleneck for Incomplete Modality Recommendation [56.55935146424585]
textbfIncomplete textbfModality textbfRecommendation の textbfInformation ボトルネック原理を用いて学習する textbfI$3$-MRec を紹介する。
それぞれのモダリティを異なる意味環境として扱うことで、I$3$-MRecは、優先指向の表現を学習するために不変リスク最小化(IRM)を採用する。
I$3$-MRecは、様々なモダリティ欠落シナリオにおいて、既存の最先端MSSメソッドを一貫して上回る
論文 参考訳(メタデータ) (2025-08-06T09:29:50Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Benchmarking Multi-modal Semantic Segmentation under Sensor Failures: Missing and Noisy Modality Robustness [61.87055159919641]
マルチモーダルセマンティックセグメンテーション(MMSS)は、モーダル間で補完情報を統合することで、単一モーダルデータの制限に対処する。
顕著な進歩にもかかわらず、マルチモーダルデータ品質の変動と不確実性により、研究と実世界の展開の間に大きなギャップが持続する。
Intire-Missing Modality (EMM)、Random-Missing Modality (RMM)、Noisy Modality (NM)の3つのシナリオでMMSSモデルを評価する頑健性ベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-24T08:46:52Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。