論文の概要: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks
- arxiv url: http://arxiv.org/abs/2303.15710v1
- Date: Tue, 28 Mar 2023 03:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 16:30:27.397853
- Title: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks
- Title(参考訳): RGB-サーマル知覚課題に対する明示的注意強化融合
- Authors: Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng and Tin
Lun Lam
- Abstract要約: 本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。
提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
- 参考スコア(独自算出の注目度): 13.742299383836256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, RGB-Thermal based perception has shown significant advances.
Thermal information provides useful clues when visual cameras suffer from poor
lighting conditions, such as low light and fog. However, how to effectively
fuse RGB images and thermal data remains an open challenge. Previous works
involve naive fusion strategies such as merging them at the input,
concatenating multi-modality features inside models, or applying attention to
each data modality. These fusion strategies are straightforward yet
insufficient. In this paper, we propose a novel fusion method named Explicit
Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of
data. Specifically, we consider the following cases: i) both RGB data and
thermal data, ii) only one of the types of data, and iii) none of them generate
discriminative features. EAEF uses one branch to enhance feature extraction for
i) and iii) and the other branch to remedy insufficient representations for
ii). The outputs of two branches are fused to form complementary features. As a
result, the proposed fusion method outperforms state-of-the-art by 1.6\% in
mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\%
in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is
available at https://github.com/FreeformRobotics/EAEFNet.
- Abstract(参考訳): 近年,RGBをベースとした知覚は大きな進歩を見せている。
熱情報は、視界カメラが低照度や霧などの照明条件に苦しむときに有用な手がかりとなる。
しかし、RGB画像と熱データを効果的に融合する方法は、依然としてオープンな課題である。
以前の研究では、入力でそれらをマージしたり、モデル内のマルチモダリティ機能を結合したり、各データモダリティに注意を向けたりといった、ナイーブな融合戦略を含んでいる。
これらの融合戦略は単純だが不十分である。
本稿では,各種類のデータを完全に活用する Explicit Attention-Enhanced Fusion (EAEF) という新しい融合法を提案する。
具体的には,以下の事例を考察する。
一 RGBデータ及び熱データの両方
二 データの種類の1つに過ぎず、
三 識別的特徴を生じさせないこと。
EAEFは1つのブランチを使って特徴抽出を強化する
i (複数形 is)
三 不足表現の救済のための他の支店
i)。
2つの分岐の出力は融合して相補的な特徴を形成する。
その結果,提案手法は,意味セグメンテーションではmiouで1.6\%,サルエント物体検出ではmaeで3.1\%,物体検出では2.3\%,群衆数ではmaeで8.1\%の最先端技術を上回る。
コードはhttps://github.com/FreeformRobotics/EAEFNetで公開されている。
関連論文リスト
- Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - Target-aware Dual Adversarial Learning and a Multi-scenario
Multi-Modality Benchmark to Fuse Infrared and Visible for Object Detection [65.30079184700755]
本研究は、物体検出のために異なるように見える赤外線と可視画像の融合の問題に対処する。
従来のアプローチでは、2つのモダリティの根底にある共通点を発見し、反復最適化またはディープネットワークによって共通空間に融合する。
本稿では、融合と検出の連立問題に対する二段階最適化の定式化を提案し、その後、核融合と一般的に使用される検出ネットワークのためのターゲット認識デュアル逆学習(TarDAL)ネットワークに展開する。
論文 参考訳(メタデータ) (2022-03-30T11:44:56Z) - TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting [16.336401175470197]
本稿では,2組のRGBと熱画像を用いた3ストリーム適応型核融合ネットワークTAFNetを提案する。
RGBT-CCデータセットを用いた実験の結果,平均誤差の20%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-02-17T08:43:10Z) - Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing [4.913013713982677]
RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。
高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-09T01:12:47Z) - MBDF-Net: Multi-Branch Deep Fusion Network for 3D Object Detection [17.295359521427073]
3次元物体検出のためのMulti-Branch Deep Fusion Network (MBDF-Net)を提案する。
最初の段階では、マルチブランチ機能抽出ネットワークは、Adaptive Attention Fusionモジュールを使用して、単一モーダルなセマンティックな特徴からクロスモーダルな融合機能を生成する。
第2段階では、関心領域(RoI)をプールした核融合モジュールを用いて局所的な特徴を改良する。
論文 参考訳(メタデータ) (2021-08-29T15:40:15Z) - Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot
Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。
提案手法は,最先端技術に対する魅力的な性能を実現する。
論文 参考訳(メタデータ) (2021-08-11T07:37:44Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。