Fugu-MT 論文翻訳(概要): Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks

論文の概要: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks

arxiv url: http://arxiv.org/abs/2303.15710v1
Date: Tue, 28 Mar 2023 03:37:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-29 16:30:27.397853
Title: Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks
Title（参考訳）: RGB-サーマル知覚課題に対する明示的注意強化融合
Authors: Mingjian Liang, Junjie Hu, Chenyu Bao, Hua Feng, Fuqin Deng and Tin Lun Lam
Abstract要約: 本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
参考スコア（独自算出の注目度）: 13.742299383836256
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, RGB-Thermal based perception has shown significant advances. Thermal information provides useful clues when visual cameras suffer from poor lighting conditions, such as low light and fog. However, how to effectively fuse RGB images and thermal data remains an open challenge. Previous works involve naive fusion strategies such as merging them at the input, concatenating multi-modality features inside models, or applying attention to each data modality. These fusion strategies are straightforward yet insufficient. In this paper, we propose a novel fusion method named Explicit Attention-Enhanced Fusion (EAEF) that fully takes advantage of each type of data. Specifically, we consider the following cases: i) both RGB data and thermal data, ii) only one of the types of data, and iii) none of them generate discriminative features. EAEF uses one branch to enhance feature extraction for i) and iii) and the other branch to remedy insufficient representations for ii). The outputs of two branches are fused to form complementary features. As a result, the proposed fusion method outperforms state-of-the-art by 1.6\% in mIoU on semantic segmentation, 3.1\% in MAE on salient object detection, 2.3\% in mAP on object detection, and 8.1\% in MAE on crowd counting. The code is available at https://github.com/FreeformRobotics/EAEFNet.
Abstract（参考訳）: 近年,RGBをベースとした知覚は大きな進歩を見せている。熱情報は、視界カメラが低照度や霧などの照明条件に苦しむときに有用な手がかりとなる。しかし、RGB画像と熱データを効果的に融合する方法は、依然としてオープンな課題である。以前の研究では、入力でそれらをマージしたり、モデル内のマルチモダリティ機能を結合したり、各データモダリティに注意を向けたりといった、ナイーブな融合戦略を含んでいる。これらの融合戦略は単純だが不十分である。本稿では,各種類のデータを完全に活用する Explicit Attention-Enhanced Fusion (EAEF) という新しい融合法を提案する。具体的には,以下の事例を考察する。一 RGBデータ及び熱データの両方二データの種類の1つに過ぎず、三識別的特徴を生じさせないこと。 EAEFは1つのブランチを使って特徴抽出を強化する i (複数形 is) 三不足表現の救済のための他の支店 i)。 2つの分岐の出力は融合して相補的な特徴を形成する。その結果,提案手法は,意味セグメンテーションではmiouで1.6\%,サルエント物体検出ではmaeで3.1\%,物体検出では2.3\%,群衆数ではmaeで8.1\%の最先端技術を上回る。コードはhttps://github.com/FreeformRobotics/EAEFNetで公開されている。

関連論文リスト

DFVO: Learning Darkness-free Visible and Infrared Image Disentanglement and Fusion All at Once [57.15043822199561]
可視・赤外画像のアンタングル化と融合を同時に行うためのダークネスフリーネットワーク(DFVO)を提案する。 DFVOは、従来の2段階のカスケードトレーニング(エンハンスメントと融合)を置き換えるために、ケースケードマルチタスクアプローチを採用している提案手法は,定性的および定量的評価の観点から,最先端の代替品よりも優れている。
論文参考訳（メタデータ） (2025-05-07T15:59:45Z)
Infrared and Visible Image Fusion: From Data Compatibility to Task Adaption [65.06388526722186]
赤外線可視画像融合はコンピュータビジョンにおいて重要な課題である。この急成長する領域に対処する、最近の包括的な調査が欠如している。本稿では,共通学習に基づくIVIF手法の解明のための多次元フレームワークを提案する。
論文参考訳（メタデータ） (2025-01-18T13:17:34Z)
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion [41.34335755315773]
本稿では、相関駆動型分解特徴のモデル化と高レベルグラフ表現の理由について論じる。本稿では,3分岐エンコーダデコーダアーキテクチャと,それに対応する融合層を融合戦略として提案する。可視・近赤外画像融合と医用画像融合タスクにおける最先端手法と比較して, 競争力のある結果を示す実験を行った。
論文参考訳（メタデータ） (2024-06-11T09:32:40Z)
Fusion-Mamba for Cross-modality Object Detection [63.56296480951342]
異なるモダリティから情報を融合するクロスモダリティは、オブジェクト検出性能を効果的に向上させる。 We design a Fusion-Mamba block (FMB) to map cross-modal features into a hidden state space for interaction。提案手法は,m3FD$が5.9%,FLIRデータセットが4.9%,m3FD$が5.9%である。
論文参考訳（メタデータ） (2024-04-14T05:28:46Z)
HAPNet: Toward Superior RGB-Thermal Scene Parsing via Hybrid, Asymmetric, and Progressive Heterogeneous Feature Fusion [15.538174593176166]
本研究では,RGB熱水シーン解析のためのVFM機能をフル活用するための実現可能な戦略について検討する。具体的には、VFMと畳み込みニューラルネットワークの両方を組み込んだハイブリッド非対称エンコーダを設計する。この設計により、相補的な異種特徴のより効果的な抽出が可能となり、後に二重経路の進行的な方法で融合される。
論文参考訳（メタデータ） (2024-04-04T15:31:11Z)
Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。 3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文参考訳（メタデータ） (2023-03-30T13:57:21Z)
Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。 ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文参考訳（メタデータ） (2022-11-11T10:04:36Z)
TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting [16.336401175470197]
本稿では,2組のRGBと熱画像を用いた3ストリーム適応型核融合ネットワークTAFNetを提案する。 RGBT-CCデータセットを用いた実験の結果,平均誤差の20%以上の改善が得られた。
論文参考訳（メタデータ） (2022-02-17T08:43:10Z)
Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing [4.913013713982677]
RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。 RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
論文参考訳（メタデータ） (2021-12-09T01:12:47Z)
Multi-Source Fusion and Automatic Predictor Selection for Zero-Shot Video Object Segmentation [86.94578023985677]
ゼロショットビデオオブジェクトセグメンテーションのための新しいマルチソースフュージョンネットワークを提案する。提案手法は,最先端技術に対する魅力的な性能を実現する。
論文参考訳（メタデータ） (2021-08-11T07:37:44Z)
EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文参考訳（メタデータ） (2021-06-21T10:47:26Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Learning Selective Mutual Attention and Contrast for RGB-D Saliency Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文参考訳（メタデータ） (2020-10-12T08:50:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。