論文の概要: CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers
- arxiv url: http://arxiv.org/abs/2203.04838v5
- Date: Fri, 24 Nov 2023 16:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 05:20:54.789452
- Title: CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation with
Transformers
- Title(参考訳): cmx:トランスフォーマーを用いたrgb-x意味セグメンテーションのためのクロスモーダル融合
- Authors: Jiaming Zhang, Huayao Liu, Kailun Yang, Xinxin Hu, Ruiping Liu, Rainer
Stiefelhagen
- Abstract要約: RGB-Xセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。
クロスモーダル・フィーチャー・リクティフィケーション・モジュール (CM-FRM) を用いてバイモーダル特徴を校正する。
我々はRGBを補完する5つのモード、すなわち深さ、熱、偏光、事象、LiDARを統一する。
- 参考スコア(独自算出の注目度): 36.49497394304525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene understanding based on image segmentation is a crucial component of
autonomous vehicles. Pixel-wise semantic segmentation of RGB images can be
advanced by exploiting complementary features from the supplementary modality
(X-modality). However, covering a wide variety of sensors with a
modality-agnostic model remains an unresolved problem due to variations in
sensor characteristics among different modalities. Unlike previous
modality-specific methods, in this work, we propose a unified fusion framework,
CMX, for RGB-X semantic segmentation. To generalize well across different
modalities, that often include supplements as well as uncertainties, a unified
cross-modal interaction is crucial for modality fusion. Specifically, we design
a Cross-Modal Feature Rectification Module (CM-FRM) to calibrate bi-modal
features by leveraging the features from one modality to rectify the features
of the other modality. With rectified feature pairs, we deploy a Feature Fusion
Module (FFM) to perform sufficient exchange of long-range contexts before
mixing. To verify CMX, for the first time, we unify five modalities
complementary to RGB, i.e., depth, thermal, polarization, event, and LiDAR.
Extensive experiments show that CMX generalizes well to diverse multi-modal
fusion, achieving state-of-the-art performances on five RGB-Depth benchmarks,
as well as RGB-Thermal, RGB-Polarization, and RGB-LiDAR datasets. Besides, to
investigate the generalizability to dense-sparse data fusion, we establish an
RGB-Event semantic segmentation benchmark based on the EventScape dataset, on
which CMX sets the new state-of-the-art. The source code of CMX is publicly
available at https://github.com/huaaaliu/RGBX_Semantic_Segmentation.
- Abstract(参考訳): 画像分割に基づくシーン理解は自動運転車の重要な構成要素である。
補足的モダリティ(X-モダリティ)から補足的特徴を活用することにより,RGB画像の画素ワイズセマンティックセマンティックセマンティックセマンティクスを向上することができる。
しかし、多種多様なセンサをモダリティに依存しないモデルでカバーすることは、異なるモダリティ間のセンサ特性の変化により未解決の問題のままである。
本稿では,従来のモダリティ固有手法とは異なり,RGB-Xセマンティックセマンティックセグメンテーションのための統合融合フレームワークCMXを提案する。
しばしばサプリメントや不確実性を含む様々なモダリティをうまく一般化するためには、モダリティ融合には統合されたクロスモーダル相互作用が不可欠である。
具体的には、1つのモードから特徴を活用して2つのモード特徴を校正し、他のモードの特徴を正すクロスモーダル特徴整形モジュール(CM-FRM)を設計する。
修正された特徴ペアを用いて、混合前に長距離コンテキストの十分な交換を行うためにFeature Fusion Module (FFM)をデプロイする。
CMXを初めて検証するために、RGB、すなわち深さ、熱、偏光、事象、LiDARに相補する5つのモードを統一する。
5つのRGB-Depthベンチマーク、RGB-Thermal、RGB-Polarization、RGB-LiDARデータセットで最先端のパフォーマンスを達成するため、CMXは多様なマルチモーダル融合によく対応している。
さらに,データ融合の汎用性を検討するために,イベントスケープデータセットに基づくrgbイベントセマンティクスセグメンテーションベンチマークを構築し,cmxが新たな最先端を設定する。
CMXのソースコードはhttps://github.com/huaaaliu/RGBX_Semantic_Segmentationで公開されている。
関連論文リスト
- SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - Channel and Spatial Relation-Propagation Network for RGB-Thermal
Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。
RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文 参考訳(メタデータ) (2023-08-24T03:43:47Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。