論文の概要: CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers
- arxiv url: http://arxiv.org/abs/2203.04838v3
- Date: Tue, 21 Mar 2023 13:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 05:05:43.255878
- Title: CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers
- Title(参考訳): cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合
- Authors: Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer
Stiefelhagen
- Abstract要約: CMXは、RGB-Xセマンティックセグメンテーションのためのトランスフォーマーベースのクロスモーダルフュージョンフレームワークである。
CMXはRGB画像とXモードから特徴を抽出する2つのストリームで構築されている。
CMXは様々なマルチモーダルの組み合わせに一般化し、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 29.40710162988607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene understanding based on image segmentation is a crucial component for
autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be
advanced by exploiting informative features from the supplementary modality
(X-modality). In this work, we propose CMX, a transformer-based cross-modal
fusion framework for RGB-X semantic segmentation. To generalize to different
sensing modalities encompassing various supplements and uncertainties, we
consider that comprehensive cross-modal interactions should be provided. CMX is
built with two streams to extract features from RGB images and the X-modality.
In each feature extraction stage, we design a Cross-Modal Feature Rectification
Module (CM-FRM) to calibrate the feature of the current modality by combining
the feature from the other modality, in spatial- and channel-wise dimensions.
With rectified feature pairs, we deploy a Feature Fusion Module (FFM) to mix
them for the final semantic prediction. FFM is constructed with a
cross-attention mechanism, which enables exchange of long-range contexts,
enhancing bi-modal features globally. Extensive experiments show that CMX
generalizes to diverse multi-modal combinations, achieving state-of-the-art
performances on five RGB-Depth benchmarks, as well as RGB-Thermal,
RGB-Polarization, and RGB-LiDAR datasets. Besides, to investigate the
generalizability to dense-sparse data fusion, we establish an RGB-Event
semantic segmentation benchmark based on the EventScape dataset, on which CMX
sets the new state-of-the-art. The source code of CMX is publicly available at
https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
- Abstract(参考訳): イメージセグメンテーションに基づくシーン理解は、自動運転車にとって重要な要素である。
補足モダリティ(X-モダリティ)から情報的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。
本稿では,rgb-xセマンティクスセグメンテーションのためのトランスフォーマティブベースのクロスモーダル融合フレームワークcmxを提案する。
様々なサプリメントや不確実性を包含する異なるセンシングモダリティを一般化するために,包括的なクロスモーダルインタラクションを提供するべきだと考える。
CMXはRGB画像とXモードから特徴を抽出する2つのストリームで構築されている。
各特徴抽出段階において,交叉型特徴整流モジュール (cm-frm) を設計し,他のモダリティから特徴を空間的およびチャネル的次元に組み合わせ,現在のモダリティの特徴を校正する。
修正された機能ペアでは、最終的なセマンティックな予測のために、機能融合モジュール(FFM)をデプロイします。
FFMは、長距離コンテキストの交換を可能にするクロスアテンション機構で構築され、世界規模でバイモーダル機能を強化している。
5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル組み合わせに一般化されている。
さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。
CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。
関連論文リスト
- SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - Channel and Spatial Relation-Propagation Network for RGB-Thermal
Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。
RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文 参考訳(メタデータ) (2023-08-24T03:43:47Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。