論文の概要: Multi-Stream Networks and Ground-Truth Generation for Crowd Counting
- arxiv url: http://arxiv.org/abs/2002.09951v3
- Date: Wed, 11 Mar 2020 20:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 09:45:52.233569
- Title: Multi-Stream Networks and Ground-Truth Generation for Crowd Counting
- Title(参考訳): クラウドカウントのためのマルチストリームネットワークとグラウンドルート生成
- Authors: Rodolfo Quispe, Darwin Ttito, Ad\'in Ram\'irez Rivera, Helio Pedrini
- Abstract要約: 本研究では,マルチストリーム畳み込みニューラルネットワークを開発した。
入力として画像を受け取り、エンドツーエンドで人々の空間分布を表す密度マップを生成する。
さらに,2つの最も一般的なファッションが基底真実の生成に与える影響について検討し,ハイブリッド手法を提案する。
- 参考スコア(独自算出の注目度): 0.5161531917413708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd scene analysis has received a lot of attention recently due to the wide
variety of applications, for instance, forensic science, urban planning,
surveillance and security. In this context, a challenging task is known as
crowd counting, whose main purpose is to estimate the number of people present
in a single image. A Multi-Stream Convolutional Neural Network is developed and
evaluated in this work, which receives an image as input and produces a density
map that represents the spatial distribution of people in an end-to-end
fashion. In order to address complex crowd counting issues, such as extremely
unconstrained scale and perspective changes, the network architecture utilizes
receptive fields with different size filters for each stream. In addition, we
investigate the influence of the two most common fashions on the generation of
ground truths and propose a hybrid method based on tiny face detection and
scale interpolation. Experiments conducted on two challenging datasets,
UCF-CC-50 and ShanghaiTech, demonstrate that using our ground truth generation
methods achieves superior results.
- Abstract(参考訳): 群衆のシーン分析は、例えば法科学、都市計画、監視、セキュリティなど、様々な応用により、最近多くの注目を集めている。
この文脈では、挑戦的なタスクは群衆カウントと呼ばれ、その主な目的は、1つの画像に存在する人の数を推定することである。
本研究では,画像の入力を受け取り,エンドツーエンドで人々の空間分布を表す密度マップを生成するマルチストリーム畳み込みニューラルネットワークを開発した。
非常に制約のないスケールや視点の変化のような複雑な群衆カウント問題に対処するために、ネットワークアーキテクチャは、ストリームごとに異なるサイズフィルタを持つ受容場を利用する。
さらに,2つの最も一般的な手法が地下真実の生成に与える影響について検討し,小さな顔検出と大規模補間に基づくハイブリッド手法を提案する。
UCF-CC-50とShanghaiTechの2つの挑戦的データセットで行った実験は、地上の真理生成手法が優れた結果をもたらすことを示した。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Redesigning Multi-Scale Neural Network for Crowd Counting [68.674652984003]
本稿では, 集団カウントのための多スケール密度マップを階層的にマージする, 密度専門家の階層的混合を導入する。
階層構造の中では、すべてのスケールからの貢献を促進するために、専門家の競争とコラボレーションのスキームが提示されます。
実験の結果,提案手法は5つの公開データセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-08-04T21:49:29Z) - Scene-Adaptive Attention Network for Crowd Counting [31.29858034122248]
本稿では,シーン適応型アテンションネットワークであるSAANetを提案する。
本研究では,変形可能なサンプリング位置と動的注意重みを持つ適応的特徴表現を学習するトランスフォーマーバックボーンの設計を行う。
我々は,4つの挑戦的群集カウントベンチマークについて広範な実験を行い,その手法が最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-12-31T15:03:17Z) - Aerial Images Meet Crowdsourced Trajectories: A New Approach to Robust
Road Extraction [110.61383502442598]
我々は、Cross-Modal Message Propagation Network (CMMPNet)と呼ばれる新しいニューラルネットワークフレームワークを紹介する。
CMMPNetは、モダリティ固有の表現学習のための2つのディープオートエンコーダと、クロスモーダル表現洗練のためのテーラー設計のデュアルエンハンスメントモジュールで構成されている。
実世界の3つのベンチマーク実験により, CMMPNetによる堅牢な道路抽出の有効性が示された。
論文 参考訳(メタデータ) (2021-11-30T04:30:10Z) - Bidirectional Multi-scale Attention Networks for Semantic Segmentation
of Oblique UAV Imagery [30.524771772192757]
本稿では、より適応的で効果的な特徴抽出のために、複数スケールの特徴を双方向に融合する新しい双方向多スケールアテンションネットワークを提案する。
当モデルでは,平均和合(mIoU)スコア70.80%でSOTA(State-of-the-art)を達成した。
論文 参考訳(メタデータ) (2021-02-05T11:02:15Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Shallow Feature Based Dense Attention Network for Crowd Counting [103.67446852449551]
静止画像から群衆を数えるためのShallow機能に基づくDense Attention Network (SDANet)を提案する。
提案手法は,SDANetの11.9%の平均絶対誤差(MAE)低下から明らかなように,既存の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2020-06-17T13:34:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。