論文の概要: Estimation of Psychosocial Work Environment Exposures Through Video Object Detection. Proof of Concept Using CCTV Footage
- arxiv url: http://arxiv.org/abs/2411.03724v1
- Date: Wed, 06 Nov 2024 07:43:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:23:28.722417
- Title: Estimation of Psychosocial Work Environment Exposures Through Video Object Detection. Proof of Concept Using CCTV Footage
- Title(参考訳): 映像オブジェクト検出による心理的作業環境曝露の推定 : CCTVフットージを用いた概念実証
- Authors: Claus D. Hansen, Thuy Hai Le, David Campos,
- Abstract要約: 本稿では,コンピュータビジョンアルゴリズムを用いて,CCTV映像を用いた心理社会的作業環境の側面を推定する。
本稿では,映像中の人物を検出し,追跡する手法の実証について述べる。
顧客と従業員のインタラクションを,ポーズを推定し,出会いの時間を計算することで推定する。
- 参考スコア(独自算出の注目度): 0.6632353937719806
- License:
- Abstract: This paper examines the use of computer vision algorithms to estimate aspects of the psychosocial work environment using CCTV footage. We present a proof of concept for a methodology that detects and tracks people in video footage and estimates interactions between customers and employees by estimating their poses and calculating the duration of their encounters. We propose a pipeline that combines existing object detection and tracking algorithms (YOLOv8 and DeepSORT) with pose estimation algorithms (BlazePose) to estimate the number of customers and employees in the footage as well as the duration of their encounters. We use a simple rule-based approach to classify the interactions as positive, neutral or negative based on three different criteria: distance, duration and pose. The proposed methodology is tested on a small dataset of CCTV footage. While the data is quite limited in particular with respect to the quality of the footage, we have chosen this case as it represents a typical setting where the method could be applied. The results show that the object detection and tracking part of the pipeline has a reasonable performance on the dataset with a high degree of recall and reasonable accuracy. At this stage, the pose estimation is still limited to fully detect the type of interactions due to difficulties in tracking employees in the footage. We conclude that the method is a promising alternative to self-reported measures of the psychosocial work environment and could be used in future studies to obtain external observations of the work environment.
- Abstract(参考訳): 本稿では,コンピュータビジョンアルゴリズムを用いて,CCTV映像を用いた心理社会的作業環境の側面を推定する。
本稿では,映像中の人物を検知・追跡する手法の概念実証を行い,顧客と従業員のインタラクションを,ポーズを推定し,出会いの時間を計算することによって推定する手法を提案する。
本稿では,既存の物体検出・追跡アルゴリズム(YOLOv8とDeepSORT)とポーズ推定アルゴリズム(BlazePose)を組み合わせるパイプラインを提案する。
我々は、単純なルールベースのアプローチを用いて、相互作用を3つの異なる基準(距離、持続時間、ポーズ)に基づいて、正、中、負の3つに分類する。
提案手法は、CCTV映像の小さなデータセットで検証される。
映像の質に関して、データは極めて制限されているが、我々は、このケースを、この手法が適用可能な典型的な設定として選択した。
その結果、パイプラインの物体検出・追跡部は、高いリコール率と妥当な精度で、データセット上で合理的な性能を有することがわかった。
この段階では、映像中の従業員を追跡するのに苦労するため、アクションのタイプをフルに検出するために、ポーズ推定は依然として限られている。
本手法は,精神社会的作業環境の自己申告尺度に代わる有望な代替手段であり,今後の研究で作業環境の外部観察に利用することができると結論付けた。
関連論文リスト
- Strike the Balance: On-the-Fly Uncertainty based User Interactions for Long-Term Video Object Segmentation [3.3088334148160725]
本稿では,対話的かつ半自動的なアプローチを橋渡しするビデオオブジェクトセグメンテーション(VOS)について紹介する。
関心対象の追跡期間を最大化しつつ,追跡期間の延長を最小限に抑えることを目的としている。
我々は,最近導入されたLVOSデータセットを用いて,多数の長期ビデオを提供するアプローチを評価した。
論文 参考訳(メタデータ) (2024-07-31T21:42:42Z) - Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - Assisting Blind People Using Object Detection with Vocal Feedback [0.0]
提案手法は,Webカメラを用いてリアルタイム映像中の物体を検出することを提案する。
PythonのOpenCVライブラリは、ソフトウェアプログラムの実装に使用される。
画像認識結果は、Googleのテキスト音声ライブラリーを用いて、視覚障害者に可聴形式で転送される。
論文 参考訳(メタデータ) (2023-12-18T19:28:23Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - End-to-end Evaluation of Practical Video Analytics Systems for Face
Detection and Recognition [9.942007083253479]
ビデオ分析システムは、自動運転車のような帯域制限のある環境にデプロイされる。
エンドツーエンドの顔分析システムでは、HEVCのような一般的なビデオコーデックを使用して入力を最初に圧縮する。
独立したタスク評価,データセットの不均衡,一貫性のないアノテーションが,システムパフォーマンスの誤った推定にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2023-10-10T19:06:10Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-Attentive 3D Human Pose and Shape Estimation from Videos [82.63503361008607]
3D人間のポーズと形状推定のためのビデオベースの学習アルゴリズムを紹介します。
ビデオの時間情報を利用して自己着脱モジュールを提案する。
本手法を3DPW, MPI-INF-3DHP, Human3.6Mデータセット上で評価した。
論文 参考訳(メタデータ) (2021-03-26T00:02:19Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。