論文の概要: TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting
- arxiv url: http://arxiv.org/abs/2202.08517v1
- Date: Thu, 17 Feb 2022 08:43:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 15:18:14.116214
- Title: TAFNet: A Three-Stream Adaptive Fusion Network for RGB-T Crowd Counting
- Title(参考訳): TAFNet: RGB-T クラウドカウントのための3ストリーム適応型フュージョンネットワーク
- Authors: Haihan Tang, Yi Wang, Lap-Pui Chau
- Abstract要約: 本稿では,2組のRGBと熱画像を用いた3ストリーム適応型核融合ネットワークTAFNetを提案する。
RGBT-CCデータセットを用いた実験の結果,平均誤差の20%以上の改善が得られた。
- 参考スコア(独自算出の注目度): 16.336401175470197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a three-stream adaptive fusion network named
TAFNet, which uses paired RGB and thermal images for crowd counting.
Specifically, TAFNet is divided into one main stream and two auxiliary streams.
We combine a pair of RGB and thermal images to constitute the input of main
stream. Two auxiliary streams respectively exploit RGB image and thermal image
to extract modality-specific features. Besides, we propose an Information
Improvement Module (IIM) to fuse the modality-specific features into the main
stream adaptively. Experiment results on RGBT-CC dataset show that our method
achieves more than 20% improvement on mean average error and root mean squared
error compared with state-of-the-art method. The source code will be publicly
available at https://github.com/TANGHAIHAN/TAFNet.
- Abstract(参考訳): 本稿では,クラウドカウントにrgbと熱画像の組み合わせを用いた3ストリーム適応型核融合ネットワークtafnetを提案する。
具体的には、TAFNetは1つのメインストリームと2つの補助ストリームに分けられる。
メインストリームの入力を構成するために,RGBと熱画像のペアを組み合わせる。
2つの補助ストリームはそれぞれrgbイメージとサーマルイメージを利用してモダリティ特有の特徴を抽出する。
さらに、モーダリティ固有の特徴を主ストリームに適応的に融合させる情報改善モジュール(IIM)を提案する。
RGBT-CCデータセットを用いた実験結果から,本手法は平均誤差および根平均二乗誤差に対して,最先端手法と比較して20%以上改善されていることがわかった。
ソースコードはhttps://github.com/TANGHAIHAN/TAFNetで公開されている。
関連論文リスト
- Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z) - Explicit Attention-Enhanced Fusion for RGB-Thermal Perception Tasks [13.742299383836256]
本稿では,各種類のデータを完全に活用する,EAEF (Explicit Attention-Enhanced Fusion) という新しい融合法を提案する。
提案手法は,セマンティックセグメンテーションにおけるmIoUが1.6%,サリアントオブジェクト検出におけるMAEが3.1%,オブジェクト検出におけるmAPが2.3%,クラウドカウントにおけるMAEが8.1%,最先端技術よりも優れている。
論文 参考訳(メタデータ) (2023-03-28T03:37:27Z) - Fine-Grained Action Detection with RGB and Pose Information using Two
Stream Convolutional Networks [1.4502611532302039]
本稿では,テーブルテニスストロークの分類と検出のための2ストリームネットワークアプローチを提案する。
提案手法は生のRGBデータを利用して,MMPoseツールボックスから計算した情報をポーズする。
我々は脳卒中分類の改善を報告でき、精度は87.3%に達し、検出はベースラインを上回りつつも0.349のIoUと0.110のmAPに到達している。
論文 参考訳(メタデータ) (2023-02-06T13:05:55Z) - MAFNet: A Multi-Attention Fusion Network for RGB-T Crowd Counting [40.4816930622052]
マルチアテンション・フュージョン・ネットワーク(MAFNet)と呼ばれる2ストリームのRGB-T群カウントネットワークを提案する。
エンコーダ部では、マルチアテンション・フュージョン(MAF)モジュールを2つのモード固有分岐の異なるステージに埋め込み、クロスモーダル・フュージョンを行う。
2つの人気のあるデータセットに対する大規模な実験は、提案したMAFNetがRGB-Tの群衆カウントに有効であることを示している。
論文 参考訳(メタデータ) (2022-08-14T02:42:09Z) - Edge-aware Guidance Fusion Network for RGB Thermal Scene Parsing [4.913013713982677]
RGB熱シーン解析のためのエッジ対応誘導融合ネットワーク(EGFNet)を提案する。
RGBと熱情報を効果的に融合させるため,マルチモーダル融合モジュールを提案する。
高レベルな意味情報の重要性を考慮して,グローバルな情報モジュールと意味情報モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-09T01:12:47Z) - MTFNet: Mutual-Transformer Fusion Network for RGB-D Salient Object
Detection [15.371153771528093]
RGB-D SODのためのMTFNet(Mutual-Transformer Fusion Network)を提案する。
MTFNet には $i.e.$, Focal Feature Extractor (FFE) と Mutual-Transformer Fusion (MTF) という2つの主要なモジュールが含まれている。
6つの公開ベンチマークの総合的な実験結果から,提案したMTFNetの優位性を示す。
論文 参考訳(メタデータ) (2021-12-02T12:48:37Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。