論文の概要: Closed-Circuit Television Data as an Emergent Data Source for Urban Rail Platform Crowding Estimation
- arxiv url: http://arxiv.org/abs/2508.03749v1
- Date: Sun, 03 Aug 2025 09:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.362378
- Title: Closed-Circuit Television Data as an Emergent Data Source for Urban Rail Platform Crowding Estimation
- Title(参考訳): 都市鉄道プラットフォーム群集推定のための創発的データとしての閉鎖回路テレビデータ
- Authors: Riccardo Fiorista, Awad Abdelhalim, Anson F. Stewart, Gabriel L. Pincus, Ian Thistle, Jinhua Zhao,
- Abstract要約: 正確な都市鉄道のプラットフォーム占有率の推定は、交通機関が情報的な運用上の決定を下す能力を高めることができる。
CCTVの映像は有望なデータソースとして現れており、正確なリアルタイムの占有率を推定することができる。
この研究は、交通機関が利用できる他のデータソースとは独立して、CCTV画像データがより正確なリアルタイムの混雑推定を可能にすることを実証している。
- 参考スコア(独自算出の注目度): 6.514730930658212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately estimating urban rail platform occupancy can enhance transit agencies' ability to make informed operational decisions, thereby improving safety, operational efficiency, and customer experience, particularly in the context of crowding. However, sensing real-time crowding remains challenging and often depends on indirect proxies such as automatic fare collection data or staff observations. Recently, Closed-Circuit Television (CCTV) footage has emerged as a promising data source with the potential to yield accurate, real-time occupancy estimates. The presented study investigates this potential by comparing three state-of-the-art computer vision approaches for extracting crowd-related features from platform CCTV imagery: (a) object detection and counting using YOLOv11, RT-DETRv2, and APGCC; (b) crowd-level classification via a custom-trained Vision Transformer, Crowd-ViT; and (c) semantic segmentation using DeepLabV3. Additionally, we present a novel, highly efficient linear-optimization-based approach to extract counts from the generated segmentation maps while accounting for image object depth and, thus, for passenger dispersion along a platform. Tested on a privacy-preserving dataset created in collaboration with the Washington Metropolitan Area Transit Authority (WMATA) that encompasses more than 600 hours of video material, our results demonstrate that computer vision approaches can provide substantive value for crowd estimation. This work demonstrates that CCTV image data, independent of other data sources available to a transit agency, can enable more precise real-time crowding estimation and, eventually, timely operational responses for platform crowding mitigation.
- Abstract(参考訳): 正確な都市鉄道のプラットフォーム占有率の推定は、交通機関が情報的な運用決定を行う能力を高め、特に群衆の状況において、安全性、運用効率、顧客エクスペリエンスを向上させることができる。
しかし、リアルタイムの混雑検知は依然として困難であり、自動運賃収集データやスタッフの観察など間接的プロキシに依存することが多い。
近年,クローズド・サーキット・テレビジョン(CCTV)の映像は,正確なリアルタイム占有推定値が得られる可能性を持つ有望なデータソースとして浮上している。
本研究は,3つの最先端コンピュータビジョン手法を用いて,CCTVプラットフォーム画像から観衆関連特徴を抽出し,この可能性について検討した。
a) YOLOv11, RT-DETRv2, APGCCを用いたオブジェクトの検出とカウント
(b)カスタムトレーニング型視覚変換器「Crowd-ViT」による群集レベルの分類
(c) DeepLabV3を用いたセマンティックセグメンテーション。
さらに,画像オブジェクトの深さを考慮しつつ,生成したセグメンテーションマップからカウントを抽出する,高効率な線形最適化に基づく新しい手法を提案する。
ワシントン大都市圏交通局(WMATA)と共同で作成され、600時間以上のビデオ素材を含むプライバシー保護データセットを実験した結果、コンピュータビジョンによるアプローチが、群衆の推定に実質的な価値をもたらすことを示した。
この研究は、交通機関が利用できる他のデータソースとは独立に、CCTV画像データがより正確なリアルタイムの混雑推定を可能にし、最終的にはプラットフォームによる混雑軽減のためのタイムリーな対応を可能にすることを実証している。
関連論文リスト
- Self-Supervised Pre-training with Combined Datasets for 3D Perception in Autonomous Driving [46.24100810736637]
我々は、ラベルのないデータから効果的な3D表現をスクラッチから学習する自己教師付き事前学習フレームワークを導入する。
このアプローチは、3Dオブジェクト検出、BEVセグメンテーション、3Dオブジェクトトラッキング、占有率予測などの下流タスクにおけるモデルパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-04-17T07:26:11Z) - Tracking Meets Large Multimodal Models for Driving Scenario Understanding [76.71815464110153]
大規模マルチモーダルモデル(LMM)は、最近自動運転研究で注目されている。
本稿では3次元の空間的・時間的詳細を復元するための追加入力として追跡情報を統合することを提案する。
本稿では,この追跡情報をLMMに埋め込んで,運転シナリオの理解を深めるための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T17:59:12Z) - Training a Distributed Acoustic Sensing Traffic Monitoring Network With Video Inputs [0.0]
本稿では,DASデータと協調した視覚情報を統合する新しい概念を提案する。
本モデルでは,検出と分類において94%以上の性能を示し,約1.2%の誤警報率を示す。
論文 参考訳(メタデータ) (2024-12-17T10:06:42Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Spatio-Temporal Contrastive Self-Supervised Learning for POI-level Crowd
Flow Inference [23.8192952068949]
S-temporal data(CSST)のための新しいコントラスト型自己学習フレームワークを提案する。
提案手法は,POI(Points of Interest)とその距離に基づく空間隣接グラフの構築から始める。
我々は、類似した事例から対象部分グラフの表現を予測するために、スワップした予測手法を採用する。
実世界の2つのデータセットで実施した実験では、広範囲のノイズデータに基づいて事前トレーニングされたCSSTが、ゼロからトレーニングされたモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2023-09-06T02:51:24Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - TranViT: An Integrated Vision Transformer Framework for Discrete Transit
Travel Time Range Prediction [5.787117733071415]
本稿では,交通・道路画像データ取得,ラベル付け,モデルトレーニングのための新しいエンドツーエンドフレームワークを提案し,評価する。
GTFS(General Transit Feed Specification)リアルタイムデータは、マサチューセッツ州ケンブリッジのマサチューセッツ・アベニューのセグメントを監視するロードサイドカメラユニットのアクティベーションメカニズムとして使用される。
生成されたラベル付き画像データセットを使用して、観察された旅行時間パーセンタイルに基づいて、個別の旅行時間範囲(バンド)を予測するために、ビジョントランスフォーマー(ViT)モデルをトレーニングし、評価する。
論文 参考訳(メタデータ) (2022-11-22T15:13:47Z) - Investigating Enhancements to Contrastive Predictive Coding for Human
Activity Recognition [7.086647707011785]
コントラスト予測符号化(Contrastive Predictive Coding, CPC)は、時系列データの特性を活用して効果的な表現を学習する手法である。
本研究では,アーキテクチャ,アグリゲータネットワーク,今後のタイムステップ予測を体系的に検討し,CPCの強化を提案する。
提案手法は6つのターゲットデータセットのうち4つを大幅に改善し,アプリケーションシナリオを広範囲に拡張する能力を示した。
論文 参考訳(メタデータ) (2022-11-11T12:54:58Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。