論文の概要: Multi-scale Feature Aggregation for Crowd Counting
- arxiv url: http://arxiv.org/abs/2208.05256v2
- Date: Thu, 11 Aug 2022 13:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 11:09:43.233086
- Title: Multi-scale Feature Aggregation for Crowd Counting
- Title(参考訳): 集団カウントのためのマルチスケール特徴集合
- Authors: Xiaoheng Jiang, Xinyi Wu, Hisham Cholakkal, Rao Muhammad Anwer, Jiale
Cao Mingliang Xu, Bing Zhou, Yanwei Pang and Fahad Shahbaz Khan
- Abstract要約: マルチスケール特徴集約ネットワーク(MSFANet)を提案する。
MSFANetは、ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールで構成されている。
- 参考スコア(独自算出の注目度): 84.45773306711747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Network (CNN) based crowd counting methods have achieved
promising results in the past few years. However, the scale variation problem
is still a huge challenge for accurate count estimation. In this paper, we
propose a multi-scale feature aggregation network (MSFANet) that can alleviate
this problem to some extent. Specifically, our approach consists of two feature
aggregation modules: the short aggregation (ShortAgg) and the skip aggregation
(SkipAgg). The ShortAgg module aggregates the features of the adjacent
convolution blocks. Its purpose is to make features with different receptive
fields fused gradually from the bottom to the top of the network. The SkipAgg
module directly propagates features with small receptive fields to features
with much larger receptive fields. Its purpose is to promote the fusion of
features with small and large receptive fields. Especially, the SkipAgg module
introduces the local self-attention features from the Swin Transformer blocks
to incorporate rich spatial information. Furthermore, we present a
local-and-global based counting loss by considering the non-uniform crowd
distribution. Extensive experiments on four challenging datasets (ShanghaiTech
dataset, UCF_CC_50 dataset, UCF-QNRF Dataset, WorldExpo'10 dataset) demonstrate
the proposed easy-to-implement MSFANet can achieve promising results when
compared with the previous state-of-the-art approaches.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)に基づく群集カウント手法は,ここ数年で有望な成果を上げてきた。
しかし、スケール変動問題は正確なカウント推定には依然として大きな課題である。
本稿では,この問題をある程度緩和できるマルチスケール機能集約ネットワーク(MSFANet)を提案する。
具体的には,ショートアグリゲーション(ShortAgg)とスキップアグリゲーション(SkipAgg)の2つの機能アグリゲーションモジュールからなる。
ShortAggモジュールは、隣接する畳み込みブロックの特徴を集約する。
その目的は、異なる受容野を持つ機能をネットワークの下部から上部へと徐々に融合させることである。
skipaggモジュールは、小さな受容フィールドを持つ機能を、より大きな受容フィールドを持つ機能に直接伝達する。
その目的は、小さくて大きな受容野との融合を促進することである。
特に、SkipAggモジュールは、Swin Transformerブロックからローカルな自己アテンション機能を導入し、豊富な空間情報を組み込む。
さらに,非一様群集分布を考慮した地域・地域別カウント損失を提案する。
挑戦的な4つのデータセット(shanghaitech dataset, ucf_cc_50 dataset, ucf-qnrf dataset, worldexpo'10 dataset)に関する広範な実験により、提案されている実装が容易なmsfanetは、これまでの最先端のアプローチと比較して有望な結果が得られることが示されている。
関連論文リスト
- Sequential Signal Mixing Aggregation for Message Passing Graph Neural Networks [2.7719338074999547]
本稿では,MPGNNのための新しいプラグ・アンド・プレイアグリゲーションであるSSMA(Sequential Signal Mixing Aggregation)を紹介する。
SSMAは隣接する特徴を2次元の離散的な信号として扱い、それらを連続的に結合させ、本質的に隣り合った特徴を混合する能力を増強する。
SSMAとよく確立されたMPGNNアーキテクチャを組み合わせると、様々なベンチマークでかなりの性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2024-09-28T17:13:59Z) - Alleviating Over-Smoothing via Aggregation over Compact Manifolds [19.559230417122826]
グラフニューラルネットワーク(GNN)は様々なアプリケーションで大きな成功を収めている。
ほとんどのGNNは、隣人の情報収集と各レイヤの機能変換によってノードの特徴を学習する。
しかし、ノード機能は多くのレイヤの後に区別不能になり、パフォーマンスが劣化する。
論文 参考訳(メタデータ) (2024-07-27T11:02:12Z) - M$^3$Net: Multilevel, Mixed and Multistage Attention Network for Salient
Object Detection [22.60675416709486]
M$3$Netは、Salient Object Detectionのためのアテンションネットワークである。
マルチレベル特徴間の相互作用を実現するためのクロスアテンションアプローチ。
Mixed Attention Blockは、グローバルレベルとローカルレベルの両方でコンテキストをモデリングすることを目的としている。
集約された特徴をステージごとに最適化するためのマルチレベル監視戦略。
論文 参考訳(メタデータ) (2023-09-15T12:46:14Z) - Mutual-Guided Dynamic Network for Image Fusion [51.615598671899335]
画像融合のための新しい相互誘導動的ネットワーク(MGDN)を提案する。
5つのベンチマークデータセットによる実験結果から,提案手法は4つの画像融合タスクにおいて既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-24T03:50:37Z) - PARFormer: Transformer-based Multi-Task Network for Pedestrian Attribute
Recognition [23.814762073093153]
4つのモジュールを含むPARFormerという,純粋なトランスフォーマーベースのマルチタスクPARネットワークを提案する。
特徴抽出モジュールでは,特徴抽出のための強力なベースラインを構築し,複数のPARベンチマークで競合する結果を得る。
視点認識モジュールでは、歩行者属性に対する視点の影響を探索し、マルチビューのコントラスト損失を提案する。
属性認識モジュールでは、負の正の不均衡問題を緩和し、属性予測を生成する。
論文 参考訳(メタデータ) (2023-04-14T16:27:56Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。
提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。
2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文 参考訳(メタデータ) (2020-12-23T09:33:11Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。