論文の概要: Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing
- arxiv url: http://arxiv.org/abs/2112.05144v1
- Date: Thu, 9 Dec 2021 01:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 04:39:34.485040
- Title: Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing
- Title(参考訳): rgb熱シーン解析のためのエッジアウェア誘導融合ネットワーク
- Authors: Wujie Zhou, Shaohua Dong, Caie Xu, Yaguan Qian
- Abstract要約: RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。
高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
- 参考スコア(独自算出の注目度): 4.913013713982677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB thermal scene parsing has recently attracted increasing research interest
in the field of computer vision. However, most existing methods fail to perform
good boundary extraction for prediction maps and cannot fully use high level
features. In addition, these methods simply fuse the features from RGB and
thermal modalities but are unable to obtain comprehensive fused features. To
address these problems, we propose an edge-aware guidance fusion network
(EGFNet) for RGB thermal scene parsing. First, we introduce a prior edge map
generated using the RGB and thermal images to capture detailed information in
the prediction map and then embed the prior edge information in the feature
maps. To effectively fuse the RGB and thermal information, we propose a
multimodal fusion module that guarantees adequate cross-modal fusion.
Considering the importance of high level semantic information, we propose a
global information module and a semantic information module to extract rich
semantic information from the high-level features. For decoding, we use simple
elementwise addition for cascaded feature fusion. Finally, to improve the
parsing accuracy, we apply multitask deep supervision to the semantic and
boundary maps. Extensive experiments were performed on benchmark datasets to
demonstrate the effectiveness of the proposed EGFNet and its superior
performance compared with state of the art methods. The code and results can be
found at https://github.com/ShaohuaDong2021/EGFNet.
- Abstract(参考訳): RGB熱シーン解析は近年,コンピュータビジョンの分野で研究の関心が高まっている。
しかし、既存のほとんどの手法は予測マップの良質な境界抽出を行うことができず、高次特徴を完全に利用できない。
さらに, これらの手法は, RGBと熱モダリティを融合させるだけでは, 包括的に融合した特徴を得られない。
これらの問題に対処するため、RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
まず,rgbと熱画像を用いて生成された先行エッジマップを導入し,予測マップに詳細な情報を取り込み,その先行エッジ情報を特徴マップに埋め込む。
RGBと熱情報を効果的に融合させるため,適切な相互融合を保証するマルチモーダル融合モジュールを提案する。
高レベルの意味情報の重要性を考慮して,高レベルの特徴からリッチな意味情報を抽出するグローバル情報モジュールとセマンティック情報モジュールを提案する。
復号化には、カスケード特徴融合に単純な要素分割加算を用いる。
最後に,解析精度を向上させるために,意味マップと境界マップにマルチタスクの深い監督を適用する。
提案するegfnetの有効性と,その優れた性能を示すために,ベンチマークデータセット上で広範な実験を行った。
コードと結果はhttps://github.com/ShaohuaDong2021/EGFNetで確認できる。
関連論文リスト
- HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks [13.742299383836256]
本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。
提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-03-28T03:37:27Z) - Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。