論文の概要: Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.17869v1
- Date: Sun, 22 Jun 2025 01:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.624983
- Title: Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation
- Title(参考訳): リアルタイムRGB熱水環境セマンティックセマンティックセグメンテーションのためのクロスモーダル状態空間モデリング
- Authors: Xiaodong Guo, Zi'ang Lin, Luwen Hu, Zhihong Deng, Tong Liu, Wujie Zhou,
- Abstract要約: RGBと熱データの統合により、フィールドロボットの野生環境におけるセマンティックセグメンテーション性能が大幅に向上する。
本稿では,SSM(クロスモーダル状態空間モデリング)アプローチを利用した効率的なRGB-熱的セマンティックセマンティックセグメンテーションアーキテクチャであるCM-SSMを紹介する。
CM-SSMは、より少ないパラメータと少ない計算コストでCARTデータセット上で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 31.147154902692748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of RGB and thermal data can significantly improve semantic segmentation performance in wild environments for field robots. Nevertheless, multi-source data processing (e.g. Transformer-based approaches) imposes significant computational overhead, presenting challenges for resource-constrained systems. To resolve this critical limitation, we introduced CM-SSM, an efficient RGB-thermal semantic segmentation architecture leveraging a cross-modal state space modeling (SSM) approach. Our framework comprises two key components. First, we introduced a cross-modal 2D-selective-scan (CM-SS2D) module to establish SSM between RGB and thermal modalities, which constructs cross-modal visual sequences and derives hidden state representations of one modality from the other. Second, we developed a cross-modal state space association (CM-SSA) module that effectively integrates global associations from CM-SS2D with local spatial features extracted through convolutional operations. In contrast with Transformer-based approaches, CM-SSM achieves linear computational complexity with respect to image resolution. Experimental results show that CM-SSM achieves state-of-the-art performance on the CART dataset with fewer parameters and lower computational cost. Further experiments on the PST900 dataset demonstrate its generalizability. Codes are available at https://github.com/xiaodonguo/CMSSM.
- Abstract(参考訳): RGBと熱データの統合により、フィールドロボットの野生環境におけるセマンティックセグメンテーション性能が大幅に向上する。
それでも、マルチソースデータ処理(例えば Transformer ベースのアプローチ)は、リソース制約のあるシステムにおいて大きな計算オーバーヘッドを課し、課題を提示している。
この限界を解消するために,我々は,SSM(クロスモーダル状態空間モデリング)アプローチを利用した効率的なRGB-熱的セマンティックセマンティックセマンティクスアーキテクチャであるCM-SSMを導入した。
私たちのフレームワークは2つの重要なコンポーネントで構成されています。
まず,RGBと熱モダリティ間のSSMを確立するための2D-elective-scan (CM-SS2D)モジュールを導入し,一方のモダリティを一方のモダリティから隠蔽状態の表現を導出する。
第2に,CM-SS2Dからのグローバルな関連と,畳み込み操作によって抽出された局所的な空間的特徴を効果的に統合するクロスモーダル状態空間アソシエーション(CM-SSA)モジュールを開発した。
Transformerベースのアプローチとは対照的に、CM-SSMは画像解像度に関して線形計算複雑性を実現する。
実験の結果,CM-SSMはパラメータが少なく,計算コストも低く,CARTデータセット上での最先端性能を実現することがわかった。
PST900データセットに関するさらなる実験は、その一般化可能性を示している。
コードはhttps://github.com/xiaodonguo/CMSSMで公開されている。
関連論文リスト
- MambaVSR: Content-Aware Scanning State Space Model for Video Super-Resolution [33.457410717030946]
超高解像度ビデオのための最初の状態空間モデルフレームワークであるMambaVSRを提案する。
MambaVSRは共有コンパス構築(SCC)とコンテンツ認識シーケンス化(CAS)を通じて動的相互作用を可能にする
CASモジュールは、学習された空間秩序に沿って時間的特徴をインターリーブすることにより、複数のフレームにまたがる非局所的な類似コンテンツを効果的に調整し集約する。
論文 参考訳(メタデータ) (2025-06-13T13:22:28Z) - SSNet: Saliency Prior and State Space Model-based Network for Salient Object Detection in RGB-D Images [9.671347245207121]
RGB-D SODタスクのためのSSM(Salliency-prior and State Space Model)ベースのネットワークであるSSNetを提案する。
既存の畳み込みやトランスフォーマーベースのアプローチとは異なり、SSNetはSSMベースのマルチモードマルチスケールデコーダモジュールを導入している。
また,3つのサリエンシ事前を深い特徴と統合して特徴表現を洗練させるサリエンシ拡張モジュール (SEM) も導入した。
論文 参考訳(メタデータ) (2025-03-04T04:38:36Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers [36.49497394304525]
RGB-Xセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。
クロスモーダル・フィーチャー・リクティフィケーション・モジュール (CM-FRM) を用いてバイモーダル特徴を校正する。
我々はRGBを補完する5つのモード、すなわち深さ、熱、偏光、事象、LiDARを統一する。
論文 参考訳(メタデータ) (2022-03-09T16:12:08Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - MSO: Multi-Feature Space Joint Optimization Network for RGB-Infrared
Person Re-Identification [35.97494894205023]
RGB-infrared cross-modality person re-identification (ReID) タスクは、可視モダリティと赤外線モダリティの同一性の画像を認識することを目的としている。
既存の手法は主に2ストリームアーキテクチャを使用して、最終的な共通特徴空間における2つのモード間の相違を取り除く。
単一モダリティ空間と共通空間の両方において、モダリティ調和可能な特徴を学習できる新しい多機能空間共同最適化(MSO)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-21T16:45:23Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。