論文の概要: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks
- arxiv url: http://arxiv.org/abs/2303.15710v1
- Date: Tue, 28 Mar 2023 03:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:30:27.397853
- Title: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks
- Title(参考訳): RGB-サーマル知覚課題に対する明示的注意強化融合
- Authors: Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng and Tin
Lun Lam
- Abstract要約: 本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。
提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 13.742299383836256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, RGB-Thermal based perception has shown significant advances.
Thermal information provides useful clues when visual cameras suffer from poor
lighting conditions, such as low light and fog. However, how to effectively
fuse RGB images and thermal data remains an open challenge. Previous works
involve naive fusion strategies such as merging them at the input,
concatenating multi-modality features inside models, or applying attention to
each data modality. These fusion strategies are straightforward yet
insufficient. In this paper, we propose a novel fusion method named Explicit
Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of
data. Specifically, we consider the following cases: i) both RGB data and
thermal data, ii) only one of the types of data, and iii) none of them generate
discriminative features. EAEF uses one branch to enhance feature extraction for
i) and iii) and the other branch to remedy insufficient representations for
ii). The outputs of two branches are fused to form complementary features. As a
result, the proposed fusion method outperforms state-of-the-art by 1.6\% in
mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\%
in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is
available at https://github.com/FreeformRobotics/EAEFNet.
- Abstract(参考訳): 近年,RGBをベースとした知覚は大きな進歩を見せている。
熱情報は、視界カメラが低照度や霧などの照明条件に苦しむときに有用な手がかりとなる。
しかし、RGB画像と熱データを効果的に融合する方法は、依然としてオープンな課題である。
以前の研究では、入力でそれらをマージしたり、モデル内のマルチモダリティ機能を結合したり、各データモダリティに注意を向けたりといった、ナイーブな融合戦略を含んでいる。
これらの融合戦略は単純だが不十分である。
本稿では,各種類のデータを完全に活用する Explicit Attention-Enhanced Fusion (EAEF) という新しい融合法を提案する。
具体的には,以下の事例を考察する。
一 RGBデータ及び熱データの両方
二 データの種類の1つに過ぎず、
三 識別的特徴を生じさせないこと。
EAEFは1つのブランチを使って特徴抽出を強化する
i (複数形 is)
三 不足表現の救済のための他の支店
i)。
2つの分岐の出力は融合して相補的な特徴を形成する。
その結果,提案手法は,意味セグメンテーションではmiouで1.6\%,サルエント物体検出ではmaeで3.1\%,物体検出では2.3\%,群衆数ではmaeで8.1\%の最先端技術を上回る。
コードはhttps://github.com/FreeformRobotics/EAEFNetで公開されている。
関連論文リスト
- Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。
We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。
提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文 参考訳(メタデータ) (2024-04-14T05:28:46Z) - HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。
具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。
この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文 参考訳(メタデータ) (2024-04-04T15:31:11Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting [16.336401175470197]
本稿では,2組のRGBと熱画像を用いた3ストリーム適応型核融合ネットワークTAFNetを提案する。
RGBT-CCデータセットを用いた実験の結果,平均誤差の20%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-02-17T08:43:10Z) - Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing [4.913013713982677]
RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。
高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-09T01:12:47Z) - Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
論文 参考訳(メタデータ) (2021-08-11T07:37:44Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。