論文の概要: Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting
- arxiv url: http://arxiv.org/abs/2104.02245v1
- Date: Tue, 6 Apr 2021 02:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 21:12:03.052039
- Title: Multi-Scale Context Aggregation Network with Attention-Guided for Crowd
Counting
- Title(参考訳): 集団カウントのための注意誘導型マルチスケールコンテキストアグリゲーションネットワーク
- Authors: Xin Wang, Yang Zhao, Tangwen Yang, Qiuqi Ruan
- Abstract要約: 群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,クラウドカウントのための単一カラムエンコーダ・デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
- 参考スコア(独自算出の注目度): 23.336181341124746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowd counting aims to predict the number of people and generate the density
map in the image. There are many challenges, including varying head scales, the
diversity of crowd distribution across images and cluttered backgrounds. In
this paper, we propose a multi-scale context aggregation network (MSCANet)
based on single-column encoder-decoder architecture for crowd counting, which
consists of an encoder based on a dense context-aware module (DCAM) and a
hierarchical attention-guided decoder. To handle the issue of scale variation,
we construct the DCAM to aggregate multi-scale contextual information by
densely connecting the dilated convolution with varying receptive fields. The
proposed DCAM can capture rich contextual information of crowd areas due to its
long-range receptive fields and dense scale sampling. Moreover, to suppress the
background noise and generate a high-quality density map, we adopt a
hierarchical attention-guided mechanism in the decoder. This helps to integrate
more useful spatial information from shallow feature maps of the encoder by
introducing multiple supervision based on semantic attention module (SAM).
Extensive experiments demonstrate that the proposed approach achieves better
performance than other similar state-of-the-art methods on three challenging
benchmark datasets for crowd counting. The code is available at
https://github.com/KingMV/MSCANet
- Abstract(参考訳): 群衆カウントは、人の数を予測し、画像内の密度マップを生成することを目的としている。
さまざまなヘッドスケール、画像間の群衆分布の多様性、散らかった背景など、多くの課題がある。
本稿では,dcam(dance context-aware module)に基づくエンコーダと階層的注意誘導デコーダからなる,クラウドカウントのための単一カラムエンコーダ-デコーダアーキテクチャに基づくマルチスケールコンテキストアグリゲーションネットワーク(mscanet)を提案する。
スケール変動の問題に対処するため,拡張畳み込みを様々な受容場に密結合することにより,多スケールコンテキスト情報を集約するDCAMを構築した。
提案するdcamは,その長距離受容場と密集したサンプリングにより,群集領域の豊かなコンテクスト情報を捉えることができる。
さらに,背景雑音を抑制し,高品質な密度マップを生成するため,階層的注意誘導機構をデコーダに適用した。
これにより、セマンティックアテンションモジュール(SAM)に基づいた複数の監視を導入することで、エンコーダの浅い特徴マップからより有用な空間情報を統合することができる。
広範な実験により、提案手法は他の類似の最先端手法よりも優れた性能を3つの挑戦的なベンチマークデータセットで達成できることが証明された。
コードはhttps://github.com/KingMV/MSCANetで入手できる。
関連論文リスト
- Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z) - Encoder-Decoder Based Convolutional Neural Networks with
Multi-Scale-Aware Modules for Crowd Counting [6.893512627479196]
正確かつ効率的な群集カウントのための2つの修正ニューラルネットワークを提案する。
最初のモデルはM-SFANetと名付けられ、アラス空間ピラミッドプール(ASPP)とコンテキスト認識モジュール(CAN)が付属している。
第2のモデルはM-SegNetと呼ばれ、SFANetの双線形アップサンプリングをSegNetで使用される最大アンプールに置き換えることで生成される。
論文 参考訳(メタデータ) (2020-03-12T03:00:26Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z) - PDANet: Pyramid Density-aware Attention Net for Accurate Crowd Counting [7.02081613648832]
関心領域内の群衆密度の大規模な変動のため、群衆カウントは依然としてオープンな現実の問題である。
PDANetと略される新しいピラミッド密度認識型ネットワークを提案する。これは、注目度、ピラミッドスケール機能、および2つの分岐デコーダモジュールを活用して、密度認識型クラウドカウントを行う。
論文 参考訳(メタデータ) (2020-01-16T04:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。