論文の概要: Multiscale Crowd Counting and Localization By Multitask Point
Supervision
- arxiv url: http://arxiv.org/abs/2202.09942v1
- Date: Mon, 21 Feb 2022 01:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:53:55.906066
- Title: Multiscale Crowd Counting and Localization By Multitask Point
Supervision
- Title(参考訳): マルチタスク・ポイント・スーパービジョンによる大規模集団カウントと位置決め
- Authors: Mohsen Zand, Haleh Damirchi, Andrew Farley, Mahdiyar Molahasani,
Michael Greenspan, Ali Etemad
- Abstract要約: 集団カウントと人物位置定位のためのマルチタスク手法を統一的なフレームワークで提案する。
我々のモデルは、符号化された群衆画像のマルチスケール表現を学習し、それらを融合することにより、マルチタスクソリューションの恩恵を受ける。
我々は,上海テックAとBの2つの人気クラウドカウントデータセットを用いて,このモデルを検証し,カウントとローカライゼーションの両タスクにおいて強い結果が得られたことを実証した。
- 参考スコア(独自算出の注目度): 11.883748843637797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a multitask approach for crowd counting and person localization in
a unified framework. As the detection and localization tasks are
well-correlated and can be jointly tackled, our model benefits from a multitask
solution by learning multiscale representations of encoded crowd images, and
subsequently fusing them. In contrast to the relatively more popular
density-based methods, our model uses point supervision to allow for crowd
locations to be accurately identified. We test our model on two popular crowd
counting datasets, ShanghaiTech A and B, and demonstrate that our method
achieves strong results on both counting and localization tasks, with MSE
measures of 110.7 and 15.0 for crowd counting and AP measures of 0.71 and 0.75
for localization, on ShanghaiTech A and B respectively. Our detailed ablation
experiments show the impact of our multiscale approach as well as the
effectiveness of the fusion module embedded in our network. Our code is
available at: https://github.com/RCVLab-AiimLab/crowd_counting.
- Abstract(参考訳): 集団カウントと人物位置定位のためのマルチタスク手法を統一的なフレームワークで提案する。
検出とローカライゼーションのタスクはよく関連しており、共同で取り組めるので、当社のモデルは、符号化された群衆画像のマルチスケール表現を学習し、それらを融合することにより、マルチタスクソリューションの恩恵を受けることができる。
比較的一般的な密度に基づく手法とは対照的に、我々のモデルは点監視を用いて、群衆の位置を正確に識別する。
本手法は,上海技工aとbの2つの人気のある群集計数データセット上で実験を行い,各群集計数において110.7と15.0のmse法と0.71と0.75のap法をそれぞれ上海技工aとb法でそれぞれ有意な結果が得られることを示した。
詳細なアブレーション実験により,マルチスケールアプローチの効果とネットワークに組み込んだ核融合モジュールの有効性が示された。
私たちのコードは、https://github.com/rcvlab-aiimlab/crowd_countingで利用可能です。
関連論文リスト
- Multi-modal Crowd Counting via a Broker Modality [64.5356816448361]
マルチモーダルな群衆カウントは、視覚画像と熱/深度画像の両方から群衆密度を推定する。
本稿では,補助的ブローカーのモダリティを導入し,そのタスクを3つのモーダル学習問題とする新しい手法を提案する。
我々はこのブローカーのモダリティを生成するための融合法を考案し、近代的な拡散に基づく核融合モデルの非拡散的軽量化を生かした。
論文 参考訳(メタデータ) (2024-07-10T10:13:11Z) - Robust Zero-Shot Crowd Counting and Localization With Adaptive Resolution SAM [55.93697196726016]
本稿では,SEEM(Seegment-Everything-Everywhere Model)を用いた簡易かつ効果的な群集カウント手法を提案する。
密集した群集シーンにおけるSEEMの性能は,高密度領域の多くの人々が欠落していることが主な原因である。
提案手法は,群集カウントにおいて最高の教師なし性能を実現すると同時に,いくつかの教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-02-27T13:55:17Z) - Multi-scale Network with Attentional Multi-resolution Fusion for Point
Cloud Semantic Segmentation [2.964101313270572]
ローカルおよびグローバルなマルチスケール情報を集約する総合的なポイントクラウドセマンティックセマンティックセマンティクスネットワークを提案する。
点の局所的な形状を効果的に学習するアングル相関点畳み込みモジュールを提案する。
第3に、2Dイメージビジョンタスクのパフォーマンスに優れたHRNetにインスパイアされた私たちは、ポイントクラウド用にカスタマイズされたHRNetを構築し、グローバルなマルチスケールコンテキストを学習します。
論文 参考訳(メタデータ) (2022-06-27T21:03:33Z) - PANet: Perspective-Aware Network with Dynamic Receptive Fields and
Self-Distilling Supervision for Crowd Counting [63.84828478688975]
本稿では,視点問題に対処するため,PANetと呼ばれる新しい視点認識手法を提案する。
対象物のサイズが視点効果によって1つの画像で大きく変化するという観測に基づいて,動的受容場(DRF)フレームワークを提案する。
このフレームワークは、入力画像に応じて拡張畳み込みパラメータによって受容野を調整することができ、モデルが各局所領域についてより識別的な特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-10-31T04:43:05Z) - Cross-Modal Collaborative Representation Learning and a Large-Scale RGBT
Benchmark for Crowd Counting [109.32927895352685]
RGBT Crowd Counting (RGBT-CC) ベンチマークは2,030対のRGB熱画像と138,389人の注釈付き画像を含む。
マルチモーダルな群集カウントを容易にするために,クロスモーダルな協調表現学習フレームワークを提案する。
RGBT-CCベンチマークで行った実験は、RGBTの群集カウントにおけるフレームワークの有効性を示した。
論文 参考訳(メタデータ) (2020-12-08T16:18:29Z) - Learning Independent Instance Maps for Crowd Localization [44.6430092887941]
Independent Instance Map segmentation (IIM) という,クラウドローカライゼーションのためのエンドツーエンドかつ簡単なフレームワークを提案する。
IIMセグメントは独立した接続コンポーネントに群集し、位置と群集数を得ます。
異なる密度領域のセグメンテーション品質を向上させるために,微分可能二元化モジュール(bm)を提案する。
BMはローカライズモデルに2つの利点をもたらす: 1) 異なる画像のしきい値マップを適応的に学習し、各インスタンスをより正確に検出する; 2) バイナリ予測とラベルの損失を使ってモデルを直接訓練する。
論文 参考訳(メタデータ) (2020-12-08T02:17:19Z) - A Strong Baseline for Crowd Counting and Unsupervised People
Localization [2.690502103971799]
本研究では,クラウドカウントのための強力なベースラインと,推定密度マップに基づく非教師なしの人物ローカライゼーションアルゴリズムについて検討する。
さまざまなバックボーンを収集して,その変更の影響を評価します。
そこで本研究では,KMeansと命名されたクラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-07T08:29:03Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - Tracking-by-Counting: Using Network Flows on Crowd Density Maps for
Tracking Multiple Targets [96.98888948518815]
State-of-the-art multi-object tracking(MOT)法は、トラッキング・バイ・検出のパラダイムに従っている。
混み合ったシーンに適したMOTパラダイムであるトラッキング・バイ・カウントを提案する。
論文 参考訳(メタデータ) (2020-07-18T19:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。