論文の概要: Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections
- arxiv url: http://arxiv.org/abs/2408.11649v1
- Date: Wed, 21 Aug 2024 14:21:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.145628
- Title: Video-to-Text Pedestrian Monitoring (VTPM): Leveraging Computer Vision and Large Language Models for Privacy-Preserve Pedestrian Activity Monitoring at Intersections
- Title(参考訳): ビデオ・ツー・テキスト歩行者監視(VTPM) - コンピュータビジョンと大規模言語モデルを活用したプライバシ保護歩行者活動監視
- Authors: Ahmed S. Abdelrahman, Mohamed Abdel-Aty, Dongdong Wang,
- Abstract要約: Video-to-Text Pedestrian Monitoring (VTPM)は交差点での歩行者の動きを監視し、リアルタイムのテキストレポートを生成する。
VTPMは歩行者検出と追跡にコンピュータビジョンモデルを使用し、ビデオフレームあたり0.05秒のレイテンシを実現する。
信号データを組み込むことで、90.2%の精度で交差違反を検出する。
- 参考スコア(独自算出の注目度): 1.3218378932492305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Computer vision has advanced research methodologies, enhancing system services across various fields. It is a core component in traffic monitoring systems for improving road safety; however, these monitoring systems don't preserve the privacy of pedestrians who appear in the videos, potentially revealing their identities. Addressing this issue, our paper introduces Video-to-Text Pedestrian Monitoring (VTPM), which monitors pedestrian movements at intersections and generates real-time textual reports, including traffic signal and weather information. VTPM uses computer vision models for pedestrian detection and tracking, achieving a latency of 0.05 seconds per video frame. Additionally, it detects crossing violations with 90.2% accuracy by incorporating traffic signal data. The proposed framework is equipped with Phi-3 mini-4k to generate real-time textual reports of pedestrian activity while stating safety concerns like crossing violations, conflicts, and the impact of weather on their behavior with latency of 0.33 seconds. To enhance comprehensive analysis of the generated textual reports, Phi-3 medium is fine-tuned for historical analysis of these generated textual reports. This fine-tuning enables more reliable analysis about the pedestrian safety at intersections, effectively detecting patterns and safety critical events. The proposed VTPM offers a more efficient alternative to video footage by using textual reports reducing memory usage, saving up to 253 million percent, eliminating privacy issues, and enabling comprehensive interactive historical analysis.
- Abstract(参考訳): コンピュータビジョンは先進的な研究手法を持ち、様々な分野のシステムサービスを強化している。
道路安全を改善するための交通監視システムの中核となる要素であるが、これらの監視システムはビデオに現れる歩行者のプライバシーを保護せず、その身元を明らかにする可能性がある。
本稿では,交差点における歩行者の動きを監視し,交通信号や気象情報を含むリアルタイムのテキストレポートを生成するVTPMについて紹介する。
VTPMは歩行者検出と追跡にコンピュータビジョンモデルを使用し、ビデオフレームあたり0.05秒のレイテンシを実現する。
さらに、交通信号データを組み込むことで、90.2%の精度で交差違反を検出する。
提案フレームワークはPhi-3 mini-4kを搭載し、歩行者活動のリアルタイムなテキストレポートを生成するとともに、交差違反、紛争、気象の影響を0.33秒のレイテンシで記述する。
生成されたテキストレポートの包括的解析を強化するため、Phi-3メディアは、これらの生成されたテキストレポートの歴史的解析のために微調整される。
この微調整により、交差点における歩行者の安全についてより信頼性の高い分析が可能となり、パターンや安全クリティカルイベントを効果的に検出できる。
提案されたVTPMは、テキストレポートを使用してメモリ使用量の削減、最大2億3300万の節約、プライバシーの問題の排除、包括的なインタラクティブな歴史的分析を可能にすることで、ビデオ映像のより効率的な代替手段を提供する。
関連論文リスト
- Analysis of Unstructured High-Density Crowded Scenes for Crowd Monitoring [55.2480439325792]
我々は,人群集の組織的動きを検出する自動システムの開発に興味がある。
コンピュータビジョンアルゴリズムは、混雑したシーンのビデオから情報を抽出することができる。
組織化されたコホート内の参加者数を見積もることができます。
論文 参考訳(メタデータ) (2024-08-06T22:09:50Z) - Application of 2D Homography for High Resolution Traffic Data Collection
using CCTV Cameras [9.946460710450319]
本研究では,CCTVカメラから高精細なトラフィックデータを抽出するための3段階のビデオ分析フレームワークを実装した。
このフレームワークの主要な構成要素は、オブジェクト認識、視点変換、車両軌道再構成である。
その結果, カメラ推定値間の速度偏差は10%以下で, 方向トラフィック数では+/-4.5%の誤差率を示した。
論文 参考訳(メタデータ) (2024-01-14T07:33:14Z) - Traffic Scene Parsing through the TSP6K Dataset [109.69836680564616]
高品質なピクセルレベルのアノテーションとインスタンスレベルのアノテーションを備えた,TSP6Kと呼ばれる特殊なトラフィック監視データセットを導入する。
データセットは、既存の運転シーンの何倍ものトラフィック参加者を持つ、より混雑した交通シーンをキャプチャする。
交通シーンの異なるセマンティック領域の詳細を復元するシーン解析のためのディテールリフィニングデコーダを提案する。
論文 参考訳(メタデータ) (2023-03-06T02:05:14Z) - Real-Time Accident Detection in Traffic Surveillance Using Deep Learning [0.8808993671472349]
本稿では,交通監視用交差点における事故検出のための新しい効率的な枠組みを提案する。
提案手法は,最先端のYOLOv4法に基づく効率的かつ高精度な物体検出を含む,3つの階層的なステップから構成される。
提案フレームワークのロバスト性は,様々な照明条件でYouTubeから収集した映像シーケンスを用いて評価する。
論文 参考訳(メタデータ) (2022-08-12T19:07:20Z) - Scalable and Real-time Multi-Camera Vehicle Detection,
Re-Identification, and Tracking [58.95210121654722]
理想化されたビデオストリームやキュレートされたビデオストリームの代わりに,リアルタイムで低解像度のCCTVを処理する,リアルタイムな都市規模のマルチカメラ車両追跡システムを提案する。
私たちの手法は、公共のリーダーボードで上位5人のパフォーマーにランク付けされています。
論文 参考訳(メタデータ) (2022-04-15T12:47:01Z) - Traffic-Net: 3D Traffic Monitoring Using a Single Camera [1.1602089225841632]
我々は,1台のCCTVトラヒックカメラを用いたリアルタイムトラヒック監視のための実用的なプラットフォームを提供する。
車両・歩行者検出のためのカスタムYOLOv5ディープニューラルネットワークモデルとSORT追跡アルゴリズムの改良を行った。
また、短時間・長期の時間的ビデオデータストリームに基づく階層的なトラフィックモデリングソリューションも開発している。
論文 参考訳(メタデータ) (2021-09-19T16:59:01Z) - Automated Object Behavioral Feature Extraction for Potential Risk
Analysis based on Video Sensor [6.291501119156943]
歩行者は道路、特に標識のない横断歩道で死亡や重傷を負う危険にさらされている。
本研究では,道路上に展開された映像センサから物体の行動特徴を効果的に抽出するシステムを提案する。
本研究は、スマートシティーに実用的なデータを提供するためのコネクテッドビデオセンサネットワークの可能性を示す。
論文 参考訳(メタデータ) (2021-07-08T01:11:31Z) - Exploiting Playbacks in Unsupervised Domain Adaptation for 3D Object
Detection [55.12894776039135]
ディープラーニングに基づく最先端の3Dオブジェクト検出器は、有望な精度を示しているが、ドメインの慣用性に過度に適合する傾向がある。
対象領域の擬似ラベルの検出器を微調整することで,このギャップを大幅に削減する新たな学習手法を提案する。
5つの自律運転データセットにおいて、これらの擬似ラベル上の検出器を微調整することで、新しい運転環境への領域ギャップを大幅に減らすことを示す。
論文 参考訳(メタデータ) (2021-03-26T01:18:11Z) - Safety-Oriented Pedestrian Motion and Scene Occupancy Forecasting [91.69900691029908]
我々は、個々の動きとシーン占有マップの両方を予測することを提唱する。
歩行者の相対的な空間情報を保存するScene-Actor Graph Neural Network (SA-GNN)を提案する。
2つの大規模な実世界のデータセットで、我々のシーン占有率予測が最先端のモーション予測手法よりも正確でより校正されていることを示した。
論文 参考訳(メタデータ) (2021-01-07T06:08:21Z) - Edge Computing for Real-Time Near-Crash Detection for Smart
Transportation Applications [29.550609157368466]
交通事故に近いイベントは、さまざまなスマートトランスポートアプリケーションにとって重要なデータソースとなる。
本稿では,既存のダッシュカムの映像ストリームをリアルタイムに処理することで,エッジコンピューティングのパワーを活用してこれらの課題に対処する。
エッジコンピューティングをリアルタイムトラフィックビデオ分析に適用する最初の取り組みのひとつであり、スマートトランスポート研究やアプリケーションにおいて、複数のサブフィールドに恩恵をもたらすことが期待されている。
論文 参考訳(メタデータ) (2020-08-02T19:39:14Z) - Training-free Monocular 3D Event Detection System for Traffic
Surveillance [93.65240041833319]
既存のイベント検出システムは、主に学習ベースであり、大量のトレーニングデータが利用可能な場合、十分なパフォーマンスを実現している。
現実のシナリオでは、十分なラベル付きトレーニングデータの収集は高価であり、時には不可能である。
本稿では,交通監視のためのトレーニング不要な単眼3Dイベント検出システムを提案する。
論文 参考訳(メタデータ) (2020-02-01T04:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。