論文の概要: RSGMamba: Reliability-Aware Self-Gated State Space Model for Multimodal Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2604.12319v2
- Date: Wed, 15 Apr 2026 06:34:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 13:09:57.460937
- Title: RSGMamba: Reliability-Aware Self-Gated State Space Model for Multimodal Semantic Segmentation
- Title(参考訳): RSGMamba:マルチモーダルセマンティックセマンティックセグメンテーションのための信頼性を考慮した自己ゲート状態空間モデル
- Authors: Guoan Xu, Yang Xiao, Guangwei Gao, Dongchen Zhu, Guo-Jun Qi, Wenjing Jia,
- Abstract要約: シーン理解を強化するための強力なパラダイムとして、クロスモーダルなセマンティックセマンティックセマンティクスが登場した。
本稿では、信頼性を考慮した自己ゲート状態空間モデル(RSGMamba)と呼ばれる新しいフレームワークを提案する。
本手法のコアとなるのは、信頼性を意識した自己ゲート型マンバブロック(RSGMB)であり、モダリティの信頼性を明示的にモデル化し、相互モーダル相互作用を動的に制御する。
- 参考スコア(独自算出の注目度): 41.11292233905035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal semantic segmentation has emerged as a powerful paradigm for enhancing scene understanding by leveraging complementary information from multiple sensing modalities (e.g., RGB, depth, and thermal). However, existing cross-modal fusion methods often implicitly assume that all modalities are equally reliable, which can lead to feature degradation when auxiliary modalities are noisy, misaligned, or incomplete. In this paper, we revisit cross-modal fusion from the perspective of modality reliability and propose a novel framework termed the Reliability-aware Self-Gated State Space Model (RSGMamba). At the core of our method is the Reliability-aware Self-Gated Mamba Block (RSGMB), which explicitly models modality reliability and dynamically regulates cross-modal interactions through a self-gating mechanism. Unlike conventional fusion strategies that indiscriminately exchange information across modalities, RSGMB enables reliability-aware feature selection and enhancing informative feature aggregation. In addition, a lightweight Local Cross-Gated Modulation (LCGM) is incorporated to refine fine-grained spatial details, complementing the global modeling capability of RSGMB. Extensive experiments demonstrate that RSGMamba achieves state-of-the-art performance on both RGB-D and RGB-T semantic segmentation benchmarks, resulting 58.8% / 54.0% mIoU on NYUDepth V2 and SUN-RGBD (+0.4% / +0.7% over prior best), and 61.1% / 88.9% mIoU on MFNet and PST900 (up to +1.6%), with only 48.6M parameters, thereby validating the effectiveness and superiority of the proposed approach.
- Abstract(参考訳): マルチモーダルセマンティックセグメンテーションは、複数の知覚モーダル(例えば、RGB、深さ、温度)からの相補的な情報を活用することによって、シーン理解を強化するための強力なパラダイムとして登場した。
しかし、既存のクロスモーダル融合法は、全てのモダリティが等しく信頼されていると暗黙的に仮定し、補助モダリティがノイズ、不整合、不完全であるときに特徴劣化を引き起こす。
本稿では,モジュール間の融合をモダリティの信頼性の観点から再検討し,信頼性を考慮した自己拡張状態空間モデル(RSGMamba)と呼ばれる新しいフレームワークを提案する。
本手法のコアとなるのは、信頼性を意識した自己ゲート型マンバブロック(RSGMB)であり、これはモダリティの信頼性を明示的にモデル化し、自己ゲーティング機構を通じて相互モーダル相互作用を動的に制御する。
モダリティ間で情報を無差別に交換する従来の融合戦略とは異なり、RSGMBは信頼性に配慮した特徴選択と情報的特徴集約の強化を可能にする。
さらに, 軽量なローカルクロスゲート変調 (LCGM) を導入し, RSGMBのグローバルなモデリング能力を補完する。
RSGMamba は RGB-D と RGB-T のセマンティックセグメンテーションのベンチマークにおいて、58.8% / 54.0% mIoU を NYUDepth V2 と SUN-RGBD (+0.4% / +0.7%) で、61.1% / 88.9% mIoU を MFNet と PST900 (+1.6%) で、48.6M のパラメータで達成し、提案手法の有効性と優位性を検証した。
関連論文リスト
- Modality-Agnostic Prompt Learning for Multi-Modal Camouflaged Object Detection [61.36976558603528]
本稿では,Segment Anything Model(SAM)のためのモダリティに依存しないマルチモーダルプロンプトを生成する新しいフレームワークを提案する。
具体的には,データ駆動型コンテンツドメインと知識駆動型プロンプトドメインとのインタラクションを通じて,マルチモーダル学習をモデル化する。
さらに,微粒なプロンプトキューを組み込むことで,粗い予測をキャリブレーションする軽量マスクリファインモジュールを導入する。
論文 参考訳(メタデータ) (2026-04-14T07:13:28Z) - LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection [31.453313049462718]
RGB-D Salient Object Detection (SOD) は、奥行きの手がかりを取り入れたシーンにおいて、最も顕著な物体を特定することを目的としている。
既存の手法は主にCNNに依存しており、局所的な受容場や2次複雑さのコストに悩まされる視覚変換器に制限されている。
本稿では,2つの新しい成分を含む局所強調・適応核融合状態空間モデル(LEAF-Mamba)を提案する。
論文 参考訳(メタデータ) (2025-09-23T06:08:17Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance [20.104169359248232]
本稿では,RGB-サーマル知覚のための言語指導によるSAM2のポテンシャルを解放する新しいSAM2駆動型ハイブリッドインタラクションパラダイムを提案する。
ShiFNetは、公開ベンチマークで最先端のセグメンテーション性能を達成し、PST900で89.8%、FMBで67.8%に達した。
論文 参考訳(メタデータ) (2025-03-04T13:04:46Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - MAGIC++: Efficient and Resilient Modality-Agnostic Semantic Segmentation via Hierarchical Modality Selection [20.584588303521496]
本稿では,効率的なマルチモーダル融合と階層的モダリティ選択のための2つの重要なプラグアンドプレイモジュールからなるMAGIC++フレームワークを紹介する。
本手法は実世界のベンチマークと合成ベンチマークの両方で最先端の性能を実現する。
本手法は, 先行技術よりも大きなマージンで優れる新奇なモダリティ非依存環境において, 優れた手法である。
論文 参考訳(メタデータ) (2024-12-22T06:12:03Z) - UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。
我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。
不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-03T17:39:38Z) - Centering the Value of Every Modality: Towards Efficient and Resilient Modality-agnostic Semantic Segmentation [7.797154022794006]
最近の試みでは、RGBのモダリティを中心とみなし、その他を補助的とみなし、2つの枝を持つ非対称なアーキテクチャを生み出している。
本稿では,コンパクトモデルから高性能モデルまで,様々なバックボーンと柔軟にペアリングできるMAGICという新しい手法を提案する。
提案手法は, モデルパラメータを60%削減しつつ, 最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-16T03:19:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。