論文の概要: Crowded Video Individual Counting Informed by Social Grouping and Spatial-Temporal Displacement Priors
- arxiv url: http://arxiv.org/abs/2601.01192v1
- Date: Sat, 03 Jan 2026 14:24:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.070968
- Title: Crowded Video Individual Counting Informed by Social Grouping and Spatial-Temporal Displacement Priors
- Title(参考訳): ソーシャルグルーピングと時空間変位プリミティブを併用したクラウドビデオの個人カウント
- Authors: Hao Lu, Xuhui Zhu, Wenjing Zhang, Yanan Li, Xiang Bai,
- Abstract要約: ビデオ個別カウント(VIC)は、ビデオから歩行者のフラックスを推定することを目的とした、最近導入されたタスクである。
しかし、既存のVICアプローチは、メトロ通勤のような混雑したシーンでは不十分である。
私たちは、混雑した歩行者の流れを特徴付ける最初のVICデータセットの1つであるWuhanMetroCrowdを構築します。
OMAN++は、SenseCrowd、CroHD、MovingCrowdベンチマークで最先端のVICベースラインを上回っている。
- 参考スコア(独自算出の注目度): 48.01681141887943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Individual Counting (VIC) is a recently introduced task aiming to estimate pedestrian flux from a video. It extends Video Crowd Counting (VCC) beyond the per-frame pedestrian count. In contrast to VCC that learns to count pedestrians across frames, VIC must identify co-existent pedestrians between frames, which turns out to be a correspondence problem. Existing VIC approaches, however, can underperform in congested scenes such as metro commuting. To address this, we build WuhanMetroCrowd, one of the first VIC datasets that characterize crowded, dynamic pedestrian flows. It features sparse-to-dense density levels, short-to-long video clips, slow-to-fast flow variations, front-to-back appearance changes, and light-to-heavy occlusions. To better adapt VIC approaches to crowds, we rethink the nature of VIC and recognize two informative priors: i) the social grouping prior that indicates pedestrians tend to gather in groups and ii) the spatial-temporal displacement prior that informs an individual cannot teleport physically. The former inspires us to relax the standard one-to-one (O2O) matching used by VIC to one-to-many (O2M) matching, implemented by an implicit context generator and a O2M matcher; the latter facilitates the design of a displacement prior injector, which strengthens not only O2M matching but also feature extraction and model training. These designs jointly form a novel and strong VIC baseline OMAN++. Extensive experiments show that OMAN++ not only outperforms state-of-the-art VIC baselines on the standard SenseCrowd, CroHD, and MovingDroneCrowd benchmarks, but also indicates a clear advantage in crowded scenes, with a 38.12% error reduction on our WuhanMetroCrowd dataset. Code, data, and pretrained models are available at https://github.com/tiny-smart/OMAN.
- Abstract(参考訳): ビデオ個別カウント(VIC)は、ビデオから歩行者のフラックスを推定することを目的とした、最近導入されたタスクである。
Video Crowd Counting (VCC)は、フレーム当たりの歩行者数を超えて拡張される。
フレームをまたいで歩行者を数えることを学ぶVCCとは対照的に、VICはフレーム間で共存する歩行者を特定する必要がある。
しかし、既存のVICアプローチは、メトロ通勤のような混雑したシーンでは不十分である。
これを解決するために、混雑したダイナミックな歩行者フローを特徴付ける最初のVICデータセットの1つであるWuhanMetroCrowdを構築しました。
疎密度レベル、短いビデオクリップ、スロー・トゥ・ファストフローのバリエーション、フロント・ツー・バックの外観変更、ライト・トゥ・ヘビー・オクルージョンなどが特徴である。
群衆にVICアプローチを適応させるために、私たちはVICの性質を再考し、2つの情報的先行点を認識する。
一 歩行者が集団に集まる傾向にあることを示す前の社交グループ
二 個人に物理的に放送できない旨を通知する前の時空間のずれ
前者は、VICが使用する標準の1対1(O2O)マッチングを、暗黙のコンテキスト生成器とO2Mマッチング器によって実装された1対1(O2M)マッチングに緩和することを促す。
これらの設計は、新しい強力なVICベースラインであるOMAN++を共同で形成している。
大規模な実験によると、OMAN++は、標準のSenseCrowd、CroHD、MovingDroneCrowdベンチマークで最先端のVICベースラインを上回るだけでなく、混み合ったシーンでは明らかな優位性を示し、WuhanMetroCrowdデータセットでは38.12%のエラー削減を実現している。
コード、データ、事前訓練されたモデルはhttps://github.com/tiny-smart/OMAN.comで入手できる。
関連論文リスト
- Video Individual Counting With Implicit One-to-Many Matching [8.80200994828351]
Video Individual Countingは、ビデオから歩行者のフラックスを推定することを目的としている。
VICの主な問題は、フレーム間で共存する歩行者を特定する方法である。
暗黙的な1対Many mAtchiNgを持つ単純だが効果的なVICモデルであるOMANを紹介する。
論文 参考訳(メタデータ) (2025-06-16T03:20:00Z) - Video Individual Counting for Moving Drones [51.429771128144964]
ビデオ・パーソナライズ・カウンティング(VIC)は、インテリジェント・ビデオ監視の重要性から注目を集めている。
以前のデータセットは、比較的まばらな個人で固定または稀に動くカメラでキャプチャされ、混雑したシーンでの高度に異なるビューと時間の評価を制限する。
これらの問題に対処するために、私たちはMovingDroneCrowdデータセットを導入しました。
論文 参考訳(メタデータ) (2025-03-12T07:09:33Z) - STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded
Scenes [78.95447086305381]
3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。
既存のベンチマークは2Dアノテーションのみを提供するか、あるいは低密度の歩行者分布を持つ限定的な3Dアノテーションを持つ。
混み合ったシナリオにおける歩行者認識アルゴリズムをよりよく評価するために,大規模なマルチモーダルデータセットSTCrowdを導入する。
論文 参考訳(メタデータ) (2022-04-03T08:26:07Z) - DR.VIC: Decomposition and Reasoning for Video Individual Counting [93.12166351940242]
我々は、新しい視点から歩行者計数を行う、ビデオ個別計数(VIC)を提案する。
本研究は,MOT(Multiple Object Tracking)技術に頼らず,全歩行者を第1フレームに存在する初期歩行者と第2フレームに別個の身元を持つ新歩行者に分解することで,その問題を解決することを提案する。
終端分解・推論ネットワーク (DRNet) は, 初期歩行者数を密度推定法で予測し, 新歩行者数を最適な移動量で推定するように設計されている。
論文 参考訳(メタデータ) (2022-03-23T11:24:44Z) - Pedestrian Stop and Go Forecasting with Hybrid Feature Fusion [87.77727495366702]
歩行者の立ち止まりと予測の新たな課題を紹介します。
都市交通における歩行者の立ち寄り行動を明示的に研究するためのベンチマークであるTransをリリースする。
歩行者の歩行動作に注釈を付けたいくつかの既存のデータセットから構築し、さまざまなシナリオや行動を実現する。
論文 参考訳(メタデータ) (2022-03-04T18:39:31Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。