論文の概要: Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.11102v1
- Date: Sun, 14 Sep 2025 05:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.919998
- Title: Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation
- Title(参考訳): ギャップを埋める:リモートセンシングセマンティックセマンティックセグメンテーションにおけるモダリティの欠如のためのマルチタスクハイブリッドマルチスケール生成フレームワーク
- Authors: Nhi Kieu, Kien Nguyen, Arnold Wiliem, Clinton Fookes, Sridha Sridharan,
- Abstract要約: マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
- 参考スコア(独自算出の注目度): 28.992992584085787
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal learning has shown significant performance boost compared to ordinary unimodal models across various domains. However, in real-world scenarios, multimodal signals are susceptible to missing because of sensor failures and adverse weather conditions, which drastically deteriorates models' operation and performance. Generative models such as AutoEncoder (AE) and Generative Adversarial Network (GAN) are intuitive solutions aiming to reconstruct missing modality from available ones. Yet, their efficacy in remote sensing semantic segmentation remains underexplored. In this paper, we first examine the limitations of existing generative approaches in handling the heterogeneity of multimodal remote sensing data. They inadequately capture semantic context in complex scenes with large intra-class and small inter-class variation. In addition, traditional generative models are susceptible to heavy dependence on the dominant modality, introducing bias that affects model robustness under missing modality conditions. To tackle these limitations, we propose a novel Generative-Enhanced MultiModal learning Network (GEMMNet) with three key components: (1) Hybrid Feature Extractor (HyFEx) to effectively learn modality-specific representations, (2) Hybrid Fusion with Multiscale Awareness (HyFMA) to capture modality-synergistic semantic context across scales and (3) Complementary Loss (CoLoss) scheme to alleviate the inherent bias by encouraging consistency across modalities and tasks. Our method, GEMMNet, outperforms both generative baselines AE, cGAN (conditional GAN), and state-of-the-art non-generative approaches - mmformer and shaspec - on two challenging semantic segmentation remote sensing datasets (Vaihingen and Potsdam). Source code is made available.
- Abstract(参考訳): マルチモーダル学習は、様々な領域にわたる通常のユニモーダルモデルと比較して顕著な性能向上を示した。
しかし、現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落し、モデルの動作と性能が劇的に悪化する。
AutoEncoder (AE) やGenerative Adversarial Network (GAN) のような生成モデルは、利用可能なものから欠落したモダリティを再構築することを目的とした直感的な解決策である。
しかし、リモートセマンティックセマンティックセグメンテーションにおけるそれらの効果はいまだ解明されていない。
本稿では,マルチモーダルリモートセンシングデータの不均一性を扱う上で,既存の生成的アプローチの限界について検討する。
それらは、大きなクラス内および小さなクラス間変異を伴う複雑なシーンにおける意味的コンテキストを不十分にキャプチャする。
さらに、従来の生成モデルは支配的なモダリティに大きく依存する可能性があり、モダリティの欠如の下でモデルロバスト性に影響を与えるバイアスがもたらされる。
これらの制約に対処するために,(1)モダリティ固有の表現を効果的に学習するハイブリッド・フィーチャー・エクストラクタ(HyFEx),(2)マルチスケール・アウェアネス(HyFMA)を用いたハイブリッド・フュージョン(HyFMA)によるスケール間のモダリティ・シネジスティック・セマンティック・コンテキストのキャプチャ,(3)モダリティとタスク間の一貫性を促進することで固有のバイアスを軽減するコンプリメンタ・ロス(CoLoss)方式の3つの重要な要素を備えた,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
GEMMNetは,2つの難解なセマンティックセグメンテーションリモートセンシングデータセット(VaihingenとPotsdam)上で,AE,cGAN(条件付きGAN),および最先端の非生成アプローチ(mmformerとshaspec)の両方に優れる。
ソースコードは利用可能である。
関連論文リスト
- Let Synthetic Data Shine: Domain Reassembly and Soft-Fusion for Single Domain Generalization [68.41367635546183]
単一ドメインの一般化は、単一のソースからのデータを使用して、さまざまなシナリオで一貫したパフォーマンスでモデルをトレーニングすることを目的としている。
モデル一般化を改善するために合成データを活用した学習フレームワークDRSFを提案する。
論文 参考訳(メタデータ) (2025-03-17T18:08:03Z) - AMM-Diff: Adaptive Multi-Modality Diffusion Network for Missing Modality Imputation [2.8498944632323755]
臨床実践において、フルイメージングは必ずしも実現可能ではなく、多くの場合、複雑な取得プロトコル、厳格なプライバシ規則、特定の臨床ニーズのためである。
有望な解決策は、利用可能なものから欠落したモダリティが生成されるデータ計算の欠如である。
適応多モード拡散ネットワーク (AMM-Diff) を提案する。
論文 参考訳(メタデータ) (2025-01-22T12:29:33Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Efficient Multimodal Transformer with Dual-Level Feature Restoration for
Robust Multimodal Sentiment Analysis [47.29528724322795]
マルチモーダルセンシング分析(MSA)が近年注目を集めている。
著しい進歩にもかかわらず、堅牢なMSAへの道にはまだ2つの大きな課題がある。
デュアルレベル特徴回復 (EMT-DLFR) を用いた高効率マルチモーダル変圧器 (Efficient Multimodal Transformer) を提案する。
論文 参考訳(メタデータ) (2022-08-16T08:02:30Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。