論文の概要: Bayesian Multi-Scale Neural Network for Crowd Counting
- arxiv url: http://arxiv.org/abs/2007.14245v4
- Date: Wed, 09 Jul 2025 13:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.147255
- Title: Bayesian Multi-Scale Neural Network for Crowd Counting
- Title(参考訳): 集団カウントのためのベイズ型マルチスケールニューラルネットワーク
- Authors: Abhinav Sagar,
- Abstract要約: クラウドカウントは、コンピュータビジョンにおいて難しいが重要なタスクである。
密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。
これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is a challenging yet critical task in computer vision with applications ranging from public safety to urban planning. Recent advances using Convolutional Neural Networks (CNNs) that estimate density maps have shown significant success. However, accurately counting individuals in highly congested scenes remains an open problem due to severe occlusions, scale variations, and perspective distortions, where people appear at drastically different sizes across the image. In this work, we propose a novel deep learning architecture that effectively addresses these challenges. Our network integrates a ResNet-based feature extractor for capturing rich hierarchical representations, followed by a downsampling block employing dilated convolutions to preserve spatial resolution while expanding the receptive field. An upsampling block using transposed convolutions reconstructs the high-resolution density map. Central to our architecture is a novel Perspective-aware Aggregation Module (PAM) designed to enhance robustness to scale and perspective variations by adaptively aggregating multi-scale contextual information. We detail the training procedure, including the loss functions and optimization strategies used. Our method is evaluated on three widely used benchmark datasets using Mean Absolute Error (MAE) and Mean Squared Error (MSE) as evaluation metrics. Experimental results demonstrate that our model achieves superior performance compared to existing state-of-the-art methods. Additionally, we incorporate principled Bayesian inference techniques to provide uncertainty estimates along with the crowd count predictions, offering a measure of confidence in the model's outputs.
- Abstract(参考訳): クラウドカウントは、公共の安全から都市計画に至るまで、コンピュータビジョンにおいて難しいが重要なタスクである。
密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。
しかし、密集した場面で正確に個人を数えることは、画像全体で大きく異なる大きさで現れる、重度の閉塞、スケールのバリエーション、視点の歪みなどにより、依然として未解決の問題である。
本研究では,これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
我々のネットワークは、リッチな階層表現をキャプチャするためのResNetベースの特徴抽出器と、拡張畳み込みを用いたダウンサンプリングブロックを統合して、受容場を拡張しながら空間分解性を維持する。
転位畳み込みを用いたアップサンプリングブロックは、高分解能密度マップを再構成する。
私たちのアーキテクチャの中心となるのは、多スケールのコンテキスト情報を適応的に集約することで、拡張性や視点の変化に対する堅牢性を高めるために設計された、パースペクティブ・アグリゲーション・モジュール(PAM)である。
得られた損失関数や最適化戦略を含むトレーニング手順について詳述する。
提案手法は,Mean Absolute Error (MAE) と Mean Squared Error (MSE) を評価指標として,広く使用されている3つのベンチマークデータセットを用いて評価する。
実験により,既存の最先端手法と比較して,本モデルが優れた性能を発揮することが示された。
さらに, ベイズ推定の原理を取り入れて, 不確実性推定と群集数予測を行い, モデル出力に対する信頼度を測定した。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - Point-Cloud Deep Learning of Porous Media for Permeability Prediction [0.0]
デジタル画像から多孔質媒体の透過性を予測するための新しいディープラーニングフレームワークを提案する。
我々は、固体行列と細孔空間の境界を点雲としてモデル化し、それらをポイントネットアーキテクチャに基づくニューラルネットワークへの入力として供給する。
論文 参考訳(メタデータ) (2021-07-18T22:59:21Z) - Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion [0.0]
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-09-11T18:08:52Z) - Shallow Feature Based Dense Attention Network for Crowd Counting [103.67446852449551]
静止画像から群衆を数えるためのShallow機能に基づくDense Attention Network (SDANet)を提案する。
提案手法は,SDANetの11.9%の平均絶対誤差(MAE)低下から明らかなように,既存の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-06-17T13:34:42Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。