論文の概要: Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.17705v1
- Date: Wed, 18 Mar 2026 13:23:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.719115
- Title: Parameter-Efficient Modality-Balanced Symmetric Fusion for Multimodal Remote Sensing Semantic Segmentation
- Title(参考訳): マルチモーダルリモートセンシングセマンティックセマンティックセマンティックセグメンテーションのためのパラメータ効率のよいモダリティベース対称性融合
- Authors: Haocheng Li, Juepeng Zheng, Shuangxi Miao, Ruibo Lu, Guosheng Cai, Haohuan Fu, Jianxi Huang,
- Abstract要約: MoBaNetはパラメータ効率とモダリティバランスを持つ対称核融合フレームワークである。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
ISPRS VaihingenとPotsdamベンチマークの実験は、MoBaNetが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 8.840077295284393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal remote sensing semantic segmentation enhances scene interpretation by exploiting complementary physical cues from heterogeneous data. Although pretrained Vision Foundation Models (VFMs) provide strong general-purpose representations, adapting them to multimodal tasks often incurs substantial computational overhead and is prone to modality imbalance, where the contribution of auxiliary modalities is suppressed during optimization. To address these challenges, we propose MoBaNet, a parameter-efficient and modality-balanced symmetric fusion framework. Built upon a largely frozen VFM backbone, MoBaNet adopts a symmetric dual-stream architecture to preserve generalizable representations while minimizing the number of trainable parameters. Specifically, we design a Cross-modal Prompt-Injected Adapter (CPIA) to enable deep semantic interaction by generating shared prompts and injecting them into bottleneck adapters under the frozen backbone. To obtain compact and discriminative multimodal representations for decoding, we further introduce a Difference-Guided Gated Fusion Module (DGFM), which adaptively fuses paired stage features by explicitly leveraging cross-modal discrepancy to guide feature selection. Furthermore, we propose a Modality-Conditional Random Masking (MCRM) strategy to mitigate modality imbalance by masking one modality only during training and imposing hard-pixel auxiliary supervision on modality-specific branches. Extensive experiments on the ISPRS Vaihingen and Potsdam benchmarks demonstrate that MoBaNet achieves state-of-the-art performance with significantly fewer trainable parameters than full fine-tuning, validating its effectiveness for robust and balanced multimodal fusion. The source code in this work is available at https://github.com/sauryeo/MoBaNet.
- Abstract(参考訳): 多モードリモートセンシングセマンティックセグメンテーションは、異種データから相補的な物理的手がかりを活用することによってシーン解釈を強化する。
事前訓練されたビジョンファウンデーションモデル(VFM)は強力な汎用表現を提供するが、それらを多目的タスクに適応させることは、しばしばかなりの計算オーバーヘッドを発生させ、モダリティの不均衡を引き起こし、最適化中に補助モダリティの寄与が抑制される。
これらの課題に対処するため,パラメータ効率とモダリティバランスを持つ対称核融合フレームワークであるMoBaNetを提案する。
ほとんど凍結されたVFMバックボーン上に構築されたMoBaNetは、トレーニング可能なパラメータの数を最小限に抑えながら、一般化可能な表現を維持するために対称なデュアルストリームアーキテクチャを採用している。
具体的には,クロスモーダルなPrompt-Injected Adapter (CPIA) を設計し,共有プロンプトを生成し,冷凍バックボーン下のボトルネックアダプタに注入することで,深いセマンティックインタラクションを実現する。
復号化のためのコンパクトかつ差別的なマルチモーダル表現を実現するため,我々はさらに,多モード差分を明示的に利用して特徴選択を導出することにより,ペア化ステージ特徴を適応的に融合させる差分誘導Gated Fusion Module (DGFM)を導入する。
さらに、トレーニング中にのみ1つのモダリティを隠蔽し、モダリティ固有のブランチをハードピクセルで補助監督することにより、モダリティの不均衡を軽減するためのモダリティ・コンディショナルランダム・マスキング(MCRM)戦略を提案する。
ISPRS Vaihingen と Potsdam のベンチマークによる大規模な実験では、MoBaNet はフル微調整よりもトレーニング可能なパラメータをはるかに少なく、最先端のパフォーマンスを実現し、堅牢でバランスの取れたマルチモーダル核融合の有効性を検証している。
この作業のソースコードはhttps://github.com/sauryeo/MoBaNet.comで公開されている。
関連論文リスト
- Sparse-Dense Mixture of Experts Adapter for Multi-Modal Tracking [16.123153889076104]
本稿では,PEFTに基づくマルチモーダルトラッキングのためのSparse-Dense Mixture of Experts Adapter (SDMoEA) フレームワークを提案する。
マルチレベル多モード核融合における高次相関のモデル化における既存の追跡手法の限界を克服するため,Gram-based Semantic Alignment Hypergraph Fusion (GSAHF)モジュールを提案する。
提案手法は,複数のマルチモーダルトラッキングベンチマークにおいて,他のPEFT手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2026-03-14T02:51:10Z) - Complementarity-Supervised Spectral-Band Routing for Multimodal Emotion Recognition [60.20529806857076]
マルチモーダル感情認識は、テキスト、ビデオ、音声などの手がかりを融合させ、個人の感情状態を理解する。
従来の手法では、機械的に独立な単調なパフォーマンスに依存することと、感情タスクで要求されるきめ細かい表現と相反する粗粒の融合という2つの主な制限に直面していた。
我々は,マルチスケールバンド分解とエキスパートコラボレーションを通じて,微細な相補的特徴をモデル化するために,Atsukoという名前のComplementarity-Supervised Multi-Band Expert Networkを提案する。
論文 参考訳(メタデータ) (2026-03-07T03:58:48Z) - MTFM: A Scalable and Alignment-free Foundation Model for Industrial Recommendation in Meituan [28.96814648857816]
MTFM(Meituan Foundation Model for Recommendation)は,これらの課題に対処するトランスフォーマーベースのフレームワークである。
MTFMは入力を事前に調整する代わりに、クロスドメインデータを異質なトークンに変換し、アライメントのない方法でマルチシナリオの知識をキャプチャする。
論文 参考訳(メタデータ) (2026-02-11T16:37:29Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Task-Oriented Multimodal Token Transmission in Resource-Constrained Multiuser Networks [19.42660454288912]
本稿では,効率的なマルチモーダル情報融合と利用のためのタスク指向マルチモーダルトークン伝送方式を提案する。
トークン伝送の効率を向上させるため,クロスモーダルアライメントやタスク指向微調整を含む2段階トレーニングアルゴリズムを設計した。
我々は、交互最適化手法を用いて、ユーザ間での帯域幅、電力割り当て、トークン長を共同で最適化する。
論文 参考訳(メタデータ) (2025-05-06T14:17:05Z) - MIFNet: Learning Modality-Invariant Features for Generalizable Multimodal Image Matching [54.740256498985026]
キーポイントの検出と記述方法は、しばしばマルチモーダルデータと競合する。
マルチモーダル画像マッチングにおけるキーポイント記述に対するモダリティ不変特徴量を計算するためのモダリティ不変特徴量学習ネットワーク(MIFNet)を提案する。
論文 参考訳(メタデータ) (2025-01-20T06:56:30Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - Modality Prompts for Arbitrary Modality Salient Object Detection [57.610000247519196]
本論文は、任意のモーダリティ・サリエント物体検出(AM SOD)の課題について述べる。
任意のモダリティ、例えばRGBイメージ、RGB-Dイメージ、RGB-D-Tイメージから有能なオブジェクトを検出することを目的としている。
AM SODの2つの基本的な課題を解明するために,新しいモード適応トランス (MAT) を提案する。
論文 参考訳(メタデータ) (2024-05-06T11:02:02Z) - FM-ViT: Flexible Modal Vision Transformers for Face Anti-Spoofing [88.6654909354382]
本稿では,顔のアンチ・スプーフィングのためのフレキシブル・モーダル・ビジョン・トランス (FM-ViT) と呼ばれる,純粋なトランスフォーマーベースのフレームワークを提案する。
FM-ViTは、利用可能なマルチモーダルデータの助けを借りて、任意の単一モーダル(すなわちRGB)攻撃シナリオを柔軟にターゲットすることができる。
実験により、FM-ViTに基づいてトレーニングされた単一モデルは、異なるモーダルサンプルを柔軟に評価できるだけでなく、既存のシングルモーダルフレームワークよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-05-05T04:28:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。