論文の概要: RPEE-HEADS: A Novel Benchmark for Pedestrian Head Detection in Crowd Videos
- arxiv url: http://arxiv.org/abs/2411.18164v1
- Date: Wed, 27 Nov 2024 09:20:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:48.528983
- Title: RPEE-HEADS: A Novel Benchmark for Pedestrian Head Detection in Crowd Videos
- Title(参考訳): RPEE-HEADS: 群衆ビデオにおける歩行者の頭部検出のための新しいベンチマーク
- Authors: Mohamad Abubaker, Zubayda Alsadder, Hamed Abdelhaq, Maik Boltes, Ahmed Alia,
- Abstract要約: 我々は,新しい,多種多様な,高解像度で正確に注釈付けされたリソースである,鉄道プラットフォームとイベントトランジェンス・ヘッドのデータセットを紹介した。
66枚のビデオ記録から1,886枚の画像に109,913枚の注釈付き歩行者頭があり、1枚あたり平均56.2枚である。
本稿では,RPEE-Headsデータセットを用いた8つの最先端物体検出アルゴリズムを評価し,頭部サイズが検出精度に与える影響を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The automatic detection of pedestrian heads in crowded environments is essential for crowd analysis and management tasks, particularly in high-risk settings such as railway platforms and event entrances. These environments, characterized by dense crowds and dynamic movements, are underrepresented in public datasets, posing challenges for existing deep learning models. To address this gap, we introduce the Railway Platforms and Event Entrances-Heads (RPEE-Heads) dataset, a novel, diverse, high-resolution, and accurately annotated resource. It includes 109,913 annotated pedestrian heads across 1,886 images from 66 video recordings, with an average of 56.2 heads per image. Annotations include bounding boxes for visible head regions. In addition to introducing the RPEE-Heads dataset, this paper evaluates eight state-of-the-art object detection algorithms using the RPEE-Heads dataset and analyzes the impact of head size on detection accuracy. The experimental results show that You Only Look Once v9 and Real-Time Detection Transformer outperform the other algorithms, achieving mean average precisions of 90.7% and 90.8%, with inference times of 11 and 14 milliseconds, respectively. Moreover, the findings underscore the need for specialized datasets like RPEE-Heads for training and evaluating accurate models for head detection in railway platforms and event entrances. The dataset and pretrained models are available at https://doi.org/10.34735/ped.2024.2.
- Abstract(参考訳): 混雑した環境における歩行者の頭部の自動検出は,特に鉄道プラットフォームやイベント・エントランスといった高リスク環境において,群集分析や管理作業に不可欠である。
これらの環境は、密集した群衆と動的な動きを特徴とし、公開データセットでは不足しており、既存のディープラーニングモデルの課題を提起している。
このギャップに対処するために、我々は、新しい、多様性があり、高解像度で、正確に注釈付けされたリソースである、Railtra Platforms and Event Entrances-Heads(RPEE-Heads)データセットを紹介します。
66枚のビデオ記録から1,886枚の画像に109,913枚の注釈付き歩行者頭があり、1枚あたり平均56.2枚である。
アノテーションには、目に見えるヘッド領域のためのバウンディングボックスが含まれる。
本稿では,RPEE-Headsデータセットの導入に加えて,RPEE-Headsデータセットを用いた8つの最先端オブジェクト検出アルゴリズムを評価し,頭部サイズが検出精度に与える影響を分析する。
実験の結果,平均精度は90.7%,平均精度は90.8%,推定時間は11ミリ秒,リアルタイム検出変換器は14ミリ秒であった。
さらに、この調査結果は、鉄道プラットフォームやイベントエントランスにおける頭部検出のための正確なモデルをトレーニングし評価するためのRPEE-Headsのような特別なデータセットの必要性を浮き彫りにした。
データセットと事前トレーニングされたモデルはhttps://doi.org/10.34735/ped.2024.2で公開されている。
関連論文リスト
- Category-Aware Dynamic Label Assignment with High-Quality Oriented Proposal [17.674175038655058]
本稿では,オブジェクト指向検出フレームワークにおいて,複素平面に基づく OBB 表現を導入する。
コンバータRPNヘッドは、角度情報を予測するために構成される。
提案した損失関数とコンバータRPNヘッドは,高品質な指向性の提案を共同で生成する。
論文 参考訳(メタデータ) (2024-07-03T15:36:47Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Improving CNN-based Person Re-identification using score Normalization [2.462953128215087]
本稿では,CNNに基づく特徴抽出手法とXQDA(Cross-view Quadratic Discriminant Analysis)を組み合わせたPRe-IDを提案する。
提案手法は、VIPeR、GRID、CUHK01、VIPeR、PRID450Sの4つの挑戦的データセットで検証される。
論文 参考訳(メタデータ) (2023-07-01T18:12:27Z) - Handling Heavy Occlusion in Dense Crowd Tracking by Focusing on the
Heads [29.80438304958294]
本研究では,歩行者のリコールと精度向上を図るために,アンカーレス方式のジョイントヘッドとボディ検出器を設計した。
本モデルでは,訓練用歩行者検出のための統計的頭部比に関する情報は不要である。
このモデルを,MOT20,Crowd Human,HT21データセットなど,さまざまなデータセットに対する広範な実験により評価する。
論文 参考訳(メタデータ) (2023-04-16T06:00:35Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - NWPU-Crowd: A Large-Scale Benchmark for Crowd Counting and Localization [101.13851473792334]
我々は,5,109枚の画像からなる大規模集束群集NWPU-Crowdを構築し,合計2,133,375個の点と箱を付加したアノテートヘッドを構築した。
他の実世界のデータセットと比較すると、様々な照明シーンを含み、最大密度範囲 (020,033) を持つ。
本稿では,データ特性について述べるとともに,主要なSOTA(State-of-the-art)手法の性能を評価し,新たなデータに生じる問題を分析する。
論文 参考訳(メタデータ) (2020-01-10T09:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。