論文の概要: Bayesian Multi-Scale Neural Network for Crowd Counting
- arxiv url: http://arxiv.org/abs/2007.14245v4
- Date: Wed, 09 Jul 2025 13:07:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.147255
- Title: Bayesian Multi-Scale Neural Network for Crowd Counting
- Title(参考訳): 集団カウントのためのベイズ型マルチスケールニューラルネットワーク
- Authors: Abhinav Sagar,
- Abstract要約: クラウドカウントは、コンピュータビジョンにおいて難しいが重要なタスクである。
密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。
これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting is a challenging yet critical task in computer vision with applications ranging from public safety to urban planning. Recent advances using Convolutional Neural Networks (CNNs) that estimate density maps have shown significant success. However, accurately counting individuals in highly congested scenes remains an open problem due to severe occlusions, scale variations, and perspective distortions, where people appear at drastically different sizes across the image. In this work, we propose a novel deep learning architecture that effectively addresses these challenges. Our network integrates a ResNet-based feature extractor for capturing rich hierarchical representations, followed by a downsampling block employing dilated convolutions to preserve spatial resolution while expanding the receptive field. An upsampling block using transposed convolutions reconstructs the high-resolution density map. Central to our architecture is a novel Perspective-aware Aggregation Module (PAM) designed to enhance robustness to scale and perspective variations by adaptively aggregating multi-scale contextual information. We detail the training procedure, including the loss functions and optimization strategies used. Our method is evaluated on three widely used benchmark datasets using Mean Absolute Error (MAE) and Mean Squared Error (MSE) as evaluation metrics. Experimental results demonstrate that our model achieves superior performance compared to existing state-of-the-art methods. Additionally, we incorporate principled Bayesian inference techniques to provide uncertainty estimates along with the crowd count predictions, offering a measure of confidence in the model's outputs.
- Abstract(参考訳): クラウドカウントは、公共の安全から都市計画に至るまで、コンピュータビジョンにおいて難しいが重要なタスクである。
密度マップを推定する畳み込みニューラルネットワーク(CNN)を用いた最近の進歩は大きな成功を収めている。
しかし、密集した場面で正確に個人を数えることは、画像全体で大きく異なる大きさで現れる、重度の閉塞、スケールのバリエーション、視点の歪みなどにより、依然として未解決の問題である。
本研究では,これらの課題を効果的に解決する新しいディープラーニングアーキテクチャを提案する。
我々のネットワークは、リッチな階層表現をキャプチャするためのResNetベースの特徴抽出器と、拡張畳み込みを用いたダウンサンプリングブロックを統合して、受容場を拡張しながら空間分解性を維持する。
転位畳み込みを用いたアップサンプリングブロックは、高分解能密度マップを再構成する。
私たちのアーキテクチャの中心となるのは、多スケールのコンテキスト情報を適応的に集約することで、拡張性や視点の変化に対する堅牢性を高めるために設計された、パースペクティブ・アグリゲーション・モジュール(PAM)である。
得られた損失関数や最適化戦略を含むトレーニング手順について詳述する。
提案手法は,Mean Absolute Error (MAE) と Mean Squared Error (MSE) を評価指標として,広く使用されている3つのベンチマークデータセットを用いて評価する。
実験により,既存の最先端手法と比較して,本モデルが優れた性能を発揮することが示された。
さらに, ベイズ推定の原理を取り入れて, 不確実性推定と群集数予測を行い, モデル出力に対する信頼度を測定した。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth
Soft-Thresholding [57.71603937699949]
我々は,学習エポックの数の増加とともに,ほぼゼロに近いトレーニング損失を達成するための最適化保証について検討した。
トレーニングサンプル数に対する閾値は,ネットワーク幅の増加とともに増加することを示す。
論文 参考訳(メタデータ) (2023-09-12T13:03:47Z) - Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - Zoom In and Out: A Mixed-scale Triplet Network for Camouflaged Object
Detection [0.0]
本稿では,不明瞭な画像を観察する際の人間の動作を模倣する混合スケール三重項ネットワークbf ZoomNetを提案する。
具体的には、ZoomNetは、ズーム戦略を用いて、設計されたスケール統合ユニットと階層的な混合スケールユニットによって、差別的な混合スケール意味学を学ぶ。
提案したタスクフレンドリなモデルは、4つの公開データセット上の既存の23の最先端手法を一貫して上回っている。
論文 参考訳(メタデータ) (2022-03-05T09:13:52Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Point-Cloud Deep Learning of Porous Media for Permeability Prediction [0.0]
デジタル画像から多孔質媒体の透過性を予測するための新しいディープラーニングフレームワークを提案する。
我々は、固体行列と細孔空間の境界を点雲としてモデル化し、それらをポイントネットアーキテクチャに基づくニューラルネットワークへの入力として供給する。
論文 参考訳(メタデータ) (2021-07-18T22:59:21Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z) - Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion [0.0]
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-09-11T18:08:52Z) - Shallow Feature Based Dense Attention Network for Crowd Counting [103.67446852449551]
静止画像から群衆を数えるためのShallow機能に基づくDense Attention Network (SDANet)を提案する。
提案手法は,SDANetの11.9%の平均絶対誤差(MAE)低下から明らかなように,既存の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-06-17T13:34:42Z) - JHU-CROWD++: Large-Scale Crowd Counting Dataset and A Benchmark Method [92.15895515035795]
我々は、"4,372"イメージと"1.51万"アノテーションを含む、新しい大規模非制約クラウドカウントデータセット(JHU-CROWD++)を導入する。
本稿では, 残差誤差推定により, 群集密度マップを段階的に生成する新しい群集カウントネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T14:59:35Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z) - Crowd Counting via Hierarchical Scale Recalibration Network [61.09833400167511]
本稿では,群集カウントの課題に取り組むために,階層型大規模校正ネットワーク(HSRNet)を提案する。
HSRNetは、リッチなコンテキスト依存をモデル化し、複数のスケール関連情報を再検討する。
提案手法は,様々なノイズを選択的に無視し,適切な群集スケールに自動的に焦点を合わせることができる。
論文 参考訳(メタデータ) (2020-03-07T10:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。