論文の概要: Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2207.03558v1
- Date: Thu, 7 Jul 2022 20:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:40:12.350004
- Title: Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection
- Title(参考訳): RGB熱塩性物体検出のためのミラー補間変圧器ネットワーク
- Authors: Xiurong Jiang, Lin Zhu, Yifan Hou, Hui Tian
- Abstract要約: RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 16.64781797503128
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-thermal salient object detection (RGB-T SOD) aims to locate the common
prominent objects of an aligned visible and thermal infrared image pair and
accurately segment all the pixels belonging to those objects. It is promising
in challenging scenes such as nighttime and complex backgrounds due to the
insensitivity to lighting conditions of thermal images. Thus, the key problem
of RGB-T SOD is to make the features from the two modalities complement and
adjust each other flexibly, since it is inevitable that any modalities of RGB-T
image pairs failure due to challenging scenes such as extreme light conditions
and thermal crossover. In this paper, we propose a novel mirror complementary
Transformer network (MCNet) for RGB-T SOD. Specifically, we introduce a
Transformer-based feature extraction module to effective extract hierarchical
features of RGB and thermal images. Then, through the attention-based feature
interaction and serial multiscale dilated convolution (SDC) based feature
fusion modules, the proposed model achieves the complementary interaction of
low-level features and the semantic fusion of deep features. Finally, based on
the mirror complementary structure, the salient regions of the two modalities
can be accurately extracted even one modality is invalid. To demonstrate the
robustness of the proposed model under challenging scenes in real world, we
build a novel RGB-T SOD dataset VT723 based on a large public semantic
segmentation RGB-T dataset used in the autonomous driving domain. Expensive
experiments on benchmark and VT723 datasets show that the proposed method
outperforms state-of-the-art approaches, including CNN-based and
Transformer-based methods. The code and dataset will be released later at
https://github.com/jxr326/SwinMCNet.
- Abstract(参考訳): RGB-thermal Salient Object Detection (RGB-T SOD) は、配向した可視光と熱赤外画像対の一般的な顕著なオブジェクトを特定し、それらのオブジェクトに属するすべてのピクセルを正確に分割することを目的としている。
熱画像の照明条件に敏感なため、夜間や複雑な背景などの挑戦的な場面では有望である。
したがって、RGB-T SODの鍵となる問題は、極端光条件や熱クロスオーバーといった難題により、RGB-T画像対の任意のモダリティが失敗することは避けられないため、2つのモードの特徴を相補し、互いに柔軟に調整することである。
本稿では,RGB-T SODのためのミラー補完トランスフォーマネットワーク(MCNet)を提案する。
具体的には,RGBと熱画像の階層的特徴を効果的に抽出するTransformerベースの特徴抽出モジュールを提案する。
そして,注目に基づく特徴相互作用とシリアルマルチスケール拡張畳み込み(SDC)に基づく特徴融合モジュールを用いて,低レベル特徴の相補的相互作用と深い特徴のセマンティック融合を実現する。
最後に、ミラー相補構造に基づいて、2つのモダリティの突出領域を1つのモダリティであっても正確に抽出することができる。
実世界の挑戦的な状況下で提案したモデルのロバスト性を実証するため,自律走行領域で使用される大規模公開セマンティックセグメンテーションRGB-Tデータセットに基づいて,新しいRGB-T SODデータセットVT723を構築した。
ベンチマークおよびvt723データセットにおける高価な実験は、提案手法がcnnおよびtransformerベースの手法を含む最先端のアプローチよりも優れていることを示している。
コードとデータセットは後にhttps://github.com/jxr326/SwinMCNetでリリースされる。
関連論文リスト
- Channel and Spatial Relation-Propagation Network for RGB-Thermal
Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。
RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文 参考訳(メタデータ) (2023-08-24T03:43:47Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - Symmetric Uncertainty-Aware Feature Transmission for Depth
Super-Resolution [52.582632746409665]
カラー誘導DSRのためのSymmetric Uncertainty-aware Feature Transmission (SUFT)を提案する。
本手法は最先端の手法と比較して優れた性能を実現する。
論文 参考訳(メタデータ) (2023-06-01T06:35:59Z) - Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。
本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。
一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文 参考訳(メタデータ) (2022-10-09T13:50:12Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。