論文の概要: MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting
- arxiv url: http://arxiv.org/abs/2208.06761v1
- Date: Sun, 14 Aug 2022 02:42:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:51:57.904662
- Title: MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting
- Title(参考訳): MAFNet: RGB-T クラウドカウントのためのマルチアテンションフュージョンネットワーク
- Authors: Pengyu Chen, Junyu Gao, Yuan Yuan, Qi Wang
- Abstract要約: マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
- 参考スコア(独自算出の注目度): 40.4816930622052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Thermal (RGB-T) crowd counting is a challenging task, which uses thermal
images as complementary information to RGB images to deal with the decreased
performance of unimodal RGB-based methods in scenes with low-illumination or
similar backgrounds. Most existing methods propose well-designed structures for
cross-modal fusion in RGB-T crowd counting. However, these methods have
difficulty in encoding cross-modal contextual semantic information in RGB-T
image pairs. Considering the aforementioned problem, we propose a two-stream
RGB-T crowd counting network called Multi-Attention Fusion Network (MAFNet),
which aims to fully capture long-range contextual information from the RGB and
thermal modalities based on the attention mechanism. Specifically, in the
encoder part, a Multi-Attention Fusion (MAF) module is embedded into different
stages of the two modality-specific branches for cross-modal fusion at the
global level. In addition, a Multi-modal Multi-scale Aggregation (MMA)
regression head is introduced to make full use of the multi-scale and
contextual information across modalities to generate high-quality crowd density
maps. Extensive experiments on two popular datasets show that the proposed
MAFNet is effective for RGB-T crowd counting and achieves the state-of-the-art
performance.
- Abstract(参考訳): RGB-Thermal (RGB-T) の群集カウントは,RGB画像と相補的な情報として熱画像を用いて,低照度又は類似の背景を持つシーンにおける単調RGB法の性能低下に対処する難題である。
既存の手法ではrgb-t群数におけるクロスモーダル融合のためのよく設計された構造を提案する。
しかし,これらの手法は,RGB-T画像の相互意味情報を符号化することが困難である。
上記の問題を考慮し,RGBの長期的コンテキスト情報と熱的モータリティを注意機構に基づいて収集することを目的とした,マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群集カウントネットワークを提案する。
具体的には、エンコーダ部において、グローバルレベルでのクロスモーダル融合のための2つのモード特異的分岐の異なるステージにマルチアテンション融合(MAF)モジュールを埋め込む。
さらに,マルチモーダル・マルチスケール・アグリゲーション(MMA)回帰ヘッドを導入し,モダリティ間のマルチスケールおよびコンテキスト情報をフル活用して,高品質な群衆密度マップを生成する。
2つの一般的なデータセットに対する大規模な実験により、提案したMAFNetはRGB-Tのクラウドカウントに有効であり、最先端のパフォーマンスを実現する。
関連論文リスト
- HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。
近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。
本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文 参考訳(メタデータ) (2023-06-17T14:28:08Z) - A Multi-modal Approach to Single-modal Visual Place Classification [2.580765958706854]
RGBと深度(D)を組み合わせたマルチセンサー融合アプローチが近年人気を集めている。
単一モードRGB画像分類タスクを擬似多モードRGB-D分類問題として再構成する。
これら2つのモダリティを適切に処理し、融合し、分類するための、実践的で完全に自己管理されたフレームワークについて説明する。
論文 参考訳(メタデータ) (2023-05-10T14:04:21Z) - Interactive Context-Aware Network for RGB-T Salient Object Detection [7.544240329265388]
ICANet(Interactive Context-Aware Network)と呼ばれる新しいネットワークを提案する。
ICANetには、クロスモーダルとクロススケールの融合を効果的に実行する3つのモジュールが含まれている。
実験により,我々のネットワークは最先端のRGB-T SOD法に対して良好に動作していることが示された。
論文 参考訳(メタデータ) (2022-11-11T10:04:36Z) - MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection [15.371153771528093]
RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
論文 参考訳(メタデータ) (2021-12-02T12:48:37Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。