論文の概要: Mask Focal Loss for dense crowd counting with canonical object detection
networks
- arxiv url: http://arxiv.org/abs/2212.11542v1
- Date: Thu, 22 Dec 2022 08:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 14:44:46.250836
- Title: Mask Focal Loss for dense crowd counting with canonical object detection
networks
- Title(参考訳): 正準物体検出ネットワークを用いた密集群数に対するマスク焦点損失
- Authors: Xiaopin Zhong, Guankun Wang, Weixiang Liua, Zongze Wua, Yuanlong Deng
- Abstract要約: 本研究では,熱マップ基底真理(GT)と二項特徴写像(GT)に基づいて損失関数を統一する新しい損失関数Mask Focal Lossを提案する。
より良い評価と比較のために、35のシーケンス、5096イメージ、バウンディングボックス付き1732043ヘッドラベルを含む新しい合成データセットGTA_Headが公開されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Crowd counting plays an important role in risk perception and early warning,
traffic control and scene statistical analysis. The challenges of crowd
counting in highly dense and complex scenes lie in the mutual occlusion of the
human body parts, the large variation of the body scales and the complexity of
imaging conditions. Deep learning based head detection is a promising method
for crowd counting. However the highly concerned object detection networks
cannot be well applied to this field for two main reasons. First, most of the
existing head detection datasets are only annotated with the center points
instead of bounding boxes which is mandatory for the canonical detectors.
Second, the sample imbalance has not been overcome yet in highly dense and
complex scenes because the existing loss functions calculate the positive loss
at a single key point or in the entire target area with the same weight. To
address these problems, We propose a novel loss function, called Mask Focal
Loss, to unify the loss functions based on heatmap ground truth (GT) and binary
feature map GT. Mask Focal Loss redefines the weight of the loss contributions
according to the situ value of the heatmap with a Gaussian kernel. For better
evaluation and comparison, a new synthetic dataset GTA\_Head is made public,
including 35 sequences, 5096 images and 1732043 head labels with bounding
boxes. Experimental results show the overwhelming performance and demonstrate
that our proposed Mask Focal Loss is applicable to all of the canonical
detectors and to various datasets with different GT. This provides a strong
basis for surpassing the crowd counting methods based on density estimation.
- Abstract(参考訳): 群衆カウントは、リスク認識と早期警告、交通制御、シーン統計解析において重要な役割を果たす。
非常に密集した複雑な場面で群衆を数えることの課題は、人体部分の相互閉塞、体の大きさの大きな変化、画像条件の複雑さにある。
深層学習に基づく頭部検出は, 群集カウントのための有望な方法である。
しかし,2つの主な理由から,対象物検出ネットワークを十分に適用することはできない。
第一に、既存のヘッド検出データセットのほとんどは、標準検出器に必須となる境界ボックスの代わりに、中心点にアノテートされるのみである。
第2に、既存の損失関数が1つのキーポイントまたは同じ重さのターゲットエリア全体の正の損失を計算するため、高濃度で複雑なシーンではサンプルの不均衡は克服されていない。
これらの問題に対処するために、熱マップ基底真理(GT)と二項特徴写像(GT)に基づいて損失関数を統一するMask Focal Lossと呼ばれる新しい損失関数を提案する。
Mask Focal Loss はガウス核のヒートマップの座値に応じて損失寄与の重みを再定義する。
より良い評価と比較のために、35のシーケンス、5096イメージ、バウンディングボックス付き1732043ヘッドラベルを含む新しい合成データセットGTA\_Headが公開されている。
実験の結果,提案したMask Focal Lossが全標準検出器およびGTの異なる各種データセットに適用可能であることが示された。
これは密度推定に基づく群集数法を超越する強力な基礎を提供する。
関連論文リスト
- Interpreting Object-level Foundation Models via Visual Precision Search [53.807678972967224]
より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本手法は,マルチモーダル融合による帰属問題を克服するために,内部モデルパラメータをバイパスする。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
論文 参考訳(メタデータ) (2024-11-25T08:54:54Z) - FGENet: Fine-Grained Extraction Network for Congested Crowd Counting [4.145422873316857]
ファイングラインド抽出ネットワーク(FGENet)と呼ばれるエンドツーエンドモデルを提案する。
密度写像を推定する手法と異なり、FGENETは個人の正確な局在を表す元の座標点を直接学習する。
FGENetは、UCF_CC_50データセットの以前のベンチマークを上回り、MAEで30.16ポイント向上した。
論文 参考訳(メタデータ) (2024-01-02T13:31:51Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z) - Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion [0.0]
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-09-11T18:08:52Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。