論文の概要: IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline
- arxiv url: http://arxiv.org/abs/2604.02032v1
- Date: Thu, 02 Apr 2026 13:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.821166
- Title: IndoorCrowd: A Multi-Scene Dataset for Human Detection, Segmentation, and Tracking with an Automated Annotation Pipeline
- Title(参考訳): IndoorCrowd: 自動アノテーションパイプラインによる人検出、セグメンテーション、追跡のためのマルチシーンデータセット
- Authors: Sebastian-Ion Nae, Radu Moldoveanu, Alexandra Stefania Ghita, Adina Magda Florea,
- Abstract要約: IndoorCrowdは、屋内での人間検出、インスタンスセグメンテーション、マルチオブジェクトトラッキングのためのデータセットである。
お値段は31ドル(約3,300円)で、人間認証されたインスタンスごとのセグメンテーションマスクがついている。
- 参考スコア(独自算出の注目度): 39.799207552858114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding human behaviour in crowded indoor environments is central to surveillance, smart buildings, and human-robot interaction, yet existing datasets rarely capture real-world indoor complexity at scale. We introduce IndoorCrowd, a multi-scene dataset for indoor human detection, instance segmentation, and multi-object tracking, collected across four campus locations (ACS-EC, ACS-EG, IE-Central, R-Central). It comprises $31$ videos ($9{,}913$ frames at $5$fps) with human-verified, per-instance segmentation masks. A $620$-frame control subset benchmarks three foundation-model auto-annotators: SAM3, GroundingSAM, and EfficientGroundingSAM, against human labels using Cohen's $κ$, AP, precision, recall, and mask IoU. A further $2{,}552$-frame subset supports multi-object tracking with continuous identity tracks in MOTChallenge format. We establish detection, segmentation, and tracking baselines using YOLOv8n, YOLOv26n, and RT-DETR-L paired with ByteTrack, BoT-SORT, and OC-SORT. Per-scene analysis reveals substantial difficulty variation driven by crowd density, scale, and occlusion: ACS-EC, with $79.3\%$ dense frames and a mean instance scale of $60.8$px, is the most challenging scene. The project page is available at https://sheepseb.github.io/IndoorCrowd/.
- Abstract(参考訳): 混雑した屋内環境での人間の振る舞いを理解することは、監視、スマートな建物、人間とロボットの相互作用の中心であるが、既存のデータセットは、大規模な屋内での実際の複雑さを捉えることはめったにない。
IndoorCrowdは屋内での人間検出、インスタンスセグメンテーション、多目的追跡のためのマルチシーンデータセットで、4つのキャンパス(ACS-EC, ACS-EG, IE-Central, R-Central)にまたがって収集される。
ビデオは311ドル($9{,}913$ frames at 5$fps)で、人間認証されたインスタンスごとのセグメンテーションマスクがある。
620ドルのフレームコントロールサブセットは、Chenの$κ$、AP、精度、リコール、マスクIoUを使った人間のラベルに対してSAM3、GroundingSAM、EfficientGroundingSAMの3つのファンデーションモデルオートアノテーションをベンチマークする。
さらに${,}552$-frameサブセットは、MOTChallengeフォーマットで連続的なアイデンティティトラックを備えたマルチオブジェクトトラッキングをサポートする。
我々は ByteTrack, BoT-SORT, OC-SORT と組み合わせて YOLOv8n, YOLOv26n, RT-DETR-L を用いて検出, セグメンテーション, 追跡ベースラインを確立する。
ACS-ECは79.3\%の高密度フレームを持ち、平均インスタンススケールは60.8$pxであり、最も難しいシーンである。
プロジェクトページはhttps://sheepseb.github.io/IndoorCrowd/.comで公開されている。
関連論文リスト
- 3D-Aware Instance Segmentation and Tracking in Egocentric Videos [107.10661490652822]
エゴセントリックなビデオは、3Dシーンの理解にユニークな課題を提示する。
本稿では,一対一のビデオにおけるインスタンスのセグメンテーションとトラッキングに対する新しいアプローチを提案する。
空間的および時間的手がかりを取り入れることで、最先端の2D手法と比較して優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-19T10:08:25Z) - View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - DIVOTrack: A Novel Dataset and Baseline Method for Cross-View
Multi-Object Tracking in DIVerse Open Scenes [74.64897845999677]
歩行者が密集したDIVerse Openのシーンを対象とした,新しいクロスビュー多目的追跡データセットを提案する。
私たちのDIVOTrackには15の異なるシナリオと953のクロスビュートラックがあります。
さらに,クロスモット(CrossMOT)という統合型共同検出・クロスビュートラッキングフレームワークを用いた新しいベースラインクロスビュートラッキング手法を提案する。
論文 参考訳(メタデータ) (2023-02-15T14:10:42Z) - IA-MOT: Instance-Aware Multi-Object Tracking with Motion Consistency [40.354708148590696]
IA-MOT(Instance-Aware MOT)は、静止カメラまたは移動カメラで複数の物体を追跡できる。
提案手法は,CVPR 2020ワークショップにおけるBMTTチャレンジのトラック3で優勝した。
論文 参考訳(メタデータ) (2020-06-24T03:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。