論文の概要: Mask Focal Loss: A unifying framework for dense crowd counting with
canonical object detection networks
- arxiv url: http://arxiv.org/abs/2212.11542v3
- Date: Sun, 14 Jan 2024 02:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 03:35:07.850119
- Title: Mask Focal Loss: A unifying framework for dense crowd counting with
canonical object detection networks
- Title(参考訳): Mask Focal Loss: 正準物体検出ネットワークによる密集群カウントのための統一フレームワーク
- Authors: Xiaopin Zhong, Guankun Wang, Weixiang Liu, Zongze Wu, Yuanlong Deng
- Abstract要約: 本稿では,ガウスカーネルを用いたヒートマップに基づく新しいマスク・フォカル・ロス(MFL)を提案する。
MFLは、ヒートマップとバイナリフィーチャーマップの両方の真実に基づいて、損失関数を統一するフレームワークを提供する。
MAEとRMSEをそれぞれ47.03%、61.99%削減することができる。
- 参考スコア(独自算出の注目度): 9.497237585758695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a fundamental computer vision task, crowd counting plays an important role
in public safety. Currently, deep learning based head detection is a promising
method for crowd counting. However, the highly concerned object detection
networks cannot be well applied to this problem for three reasons: (1) Existing
loss functions fail to address sample imbalance in highly dense and complex
scenes; (2) Canonical object detectors lack spatial coherence in loss
calculation, disregarding the relationship between object location and
background region; (3) Most of the head detection datasets are only annotated
with the center points, i.e. without bounding boxes. To overcome these issues,
we propose a novel Mask Focal Loss (MFL) based on heatmap via the Gaussian
kernel. MFL provides a unifying framework for the loss functions based on both
heatmap and binary feature map ground truths. Additionally, we introduce
GTA_Head, a synthetic dataset with comprehensive annotations, for evaluation
and comparison. Extensive experimental results demonstrate the superior
performance of our MFL across various detectors and datasets, and it can reduce
MAE and RMSE by up to 47.03% and 61.99%, respectively. Therefore, our work
presents a strong foundation for advancing crowd counting methods based on
density estimation.
- Abstract(参考訳): 基本的なコンピュータビジョンタスクとして、群衆のカウントは公共の安全において重要な役割を果たす。
現在、深層学習に基づく頭部検出は、群集カウントの有望な方法である。
しかし,(1)既存の損失関数が高濃度で複雑な場面でサンプルの不均衡に対処できないこと,(2)標準物体検出器が損失計算における空間的一貫性を欠くこと,(2)物体の位置と背景領域の関係を無視すること,(3)頭部検出データセットのほとんどは,境界ボックスのない中心点にのみ注釈付けされていること,の3つの理由から,この問題によく適用できない。
これらの問題を克服するために,ガウス核を用いたヒートマップに基づく新しいマスク焦点損失(mfl)を提案する。
MFLは、ヒートマップとバイナリフィーチャーマップの両方の真実に基づく損失関数の統一フレームワークを提供する。
さらに、総合アノテーションを用いた合成データセットであるGTA_Headを導入し、評価と比較を行った。
広範な実験結果から,様々な検出器とデータセットにおけるmflの性能が向上し,maeとrmseはそれぞれ47.03%,61.99%減少した。
そこで本研究は,密度推定に基づく群集数法を推し進めるための強力な基盤を提供する。
関連論文リスト
- Interpreting Object-level Foundation Models via Visual Precision Search [53.807678972967224]
より少ない領域で正確な属性マップを生成する視覚的精度探索法を提案する。
本手法は,マルチモーダル融合による帰属問題を克服するために,内部モデルパラメータをバイパスする。
提案手法は,複数の評価指標にまたがる既存の手法を超越して,視覚的接地や物体検出タスクにおける障害を解釈することができる。
論文 参考訳(メタデータ) (2024-11-25T08:54:54Z) - FGENet: Fine-Grained Extraction Network for Congested Crowd Counting [4.145422873316857]
ファイングラインド抽出ネットワーク(FGENet)と呼ばれるエンドツーエンドモデルを提案する。
密度写像を推定する手法と異なり、FGENETは個人の正確な局在を表す元の座標点を直接学習する。
FGENetは、UCF_CC_50データセットの以前のベンチマークを上回り、MAEで30.16ポイント向上した。
論文 参考訳(メタデータ) (2024-01-02T13:31:51Z) - Boosting Few-shot Fine-grained Recognition with Background Suppression
and Foreground Alignment [53.401889855278704]
FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。
本研究では,背景アクティベーション抑制 (BAS) モジュール,フォアグラウンドオブジェクトアライメント (FOA) モジュール,および局所的局所的(L2L) 類似度測定器からなる2段階の背景アライメントとフォアグラウンドアライメントフレームワークを提案する。
複数のベンチマークで行った実験により,提案手法は既存の最先端技術よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2022-10-04T07:54:40Z) - SASA: Semantics-Augmented Set Abstraction for Point-based 3D Object
Detection [78.90102636266276]
SASA(Semantics-Augmented Set Abstraction)と呼ばれる新しい集合抽象化手法を提案する。
そこで本研究では, 推定点前景スコアに基づいて, より重要な前景点の維持を支援するセマンティックス誘導点サンプリングアルゴリズムを提案する。
実際には、SASAは、前景オブジェクトに関連する貴重な点を識別し、ポイントベースの3D検出のための特徴学習を改善するのに有効である。
論文 参考訳(メタデータ) (2022-01-06T08:54:47Z) - Delving into Localization Errors for Monocular 3D Object Detection [85.77319416168362]
単眼画像から3Dバウンディングボックスを推定することは、自動運転に不可欠な要素です。
本研究では, 各サブタスクがもたらす影響を定量化し, 局所化誤差を求めることが, モノクロ3次元検出の抑制に欠かせない要因である。
論文 参考訳(メタデータ) (2021-03-30T10:38:01Z) - PSCNet: Pyramidal Scale and Global Context Guided Network for Crowd
Counting [44.306790250158954]
本稿では,ピラミッドスケールモジュール (PSM) とグローバルコンテキストモジュール (GCM) に基づく新しい群集カウント手法を提案する。
PSMは、異なる画像スケールの群衆の境界を識別できる多スケール情報を適応的にキャプチャするために使用される。
GCMは、機能マップのチャネル全体のインタラクティブな情報をより効率的にするために、低複雑さと軽量な方法で考案されています。
論文 参考訳(メタデータ) (2020-12-07T11:35:56Z) - Monocular Depth Estimation Using Multi Scale Neural Network And Feature
Fusion [0.0]
ネットワークは2つの異なるブロックを使用し、まず、各特徴マップの畳み込みとマージに異なるフィルタサイズを使用する。
第2ブロックは、完全に連結された層の代わりに拡張畳み込みを使用し、計算を減らし、受容場を増大させる。
我々は、RMSE損失とSILog損失からなる深さ推定のための標準評価指標を用いて、Make 3Dデータセット、NYU Depth V2データセット、Kittiデータセットでネットワークをトレーニングし、テストする。
論文 参考訳(メタデータ) (2020-09-11T18:08:52Z) - A Self-Training Approach for Point-Supervised Object Detection and
Counting in Crowds [54.73161039445703]
本稿では,ポイントレベルのアノテーションのみを用いて訓練された典型的なオブジェクト検出を可能にする,新たな自己学習手法を提案する。
トレーニング中、利用可能なポイントアノテーションを使用して、オブジェクトの中心点の推定を監督する。
実験の結果,本手法は検出タスクとカウントタスクの両方において,最先端のポイント管理手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-25T02:14:42Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。