論文の概要: Real-time Face Mask Detection in Video Data
- arxiv url: http://arxiv.org/abs/2105.01816v1
- Date: Wed, 5 May 2021 01:03:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 21:55:41.795597
- Title: Real-time Face Mask Detection in Video Data
- Title(参考訳): ビデオデータにおけるリアルタイム顔マスク検出
- Authors: Yuchen Ding, Zichen Li, David Yastremsky
- Abstract要約: 本稿では,リアルタイムビデオストリームから正解と誤用を識別可能な,堅牢なディープラーニングパイプラインを提案する。
2つのアプローチを考案し,その性能と実行時間効率を評価した。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In response to the ongoing COVID-19 pandemic, we present a robust deep
learning pipeline that is capable of identifying correct and incorrect
mask-wearing from real-time video streams. To accomplish this goal, we devised
two separate approaches and evaluated their performance and run-time
efficiency. The first approach leverages a pre-trained face detector in
combination with a mask-wearing image classifier trained on a large-scale
synthetic dataset. The second approach utilizes a state-of-the-art object
detection network to perform localization and classification of faces in one
shot, fine-tuned on a small set of labeled real-world images. The first
pipeline achieved a test accuracy of 99.97% on the synthetic dataset and
maintained 6 FPS running on video data. The second pipeline achieved a mAP(0.5)
of 89% on real-world images while sustaining 52 FPS on video data. We have
concluded that if a larger dataset with bounding-box labels can be curated,
this task is best suited using object detection architectures such as YOLO and
SSD due to their superior inference speed and satisfactory performance on key
evaluation metrics.
- Abstract(参考訳): 現在進行中の新型コロナウイルス(covid-19)パンデミックへの対応として,リアルタイムビデオストリームから正確かつ誤ったマスク着用を識別可能な,堅牢なディープラーニングパイプラインを提案する。
この目標を達成するために,我々は2つの異なるアプローチを考案し,その性能と実行時の効率を評価した。
最初のアプローチでは、トレーニング済みの顔検出器と、大規模な合成データセットでトレーニングされたマスク付き画像分類器を組み合わせる。
第2のアプローチでは、最先端のオブジェクト検出ネットワークを使用して、ラベル付き現実画像の小さなセットに微調整された、1ショットで顔のローカライズと分類を行う。
最初のパイプラインは、合成データセット上で99.97%の精度を達成し、6fpsをビデオデータ上で動作させた。
第2のパイプラインは、実世界の画像では89%のmAP(0.5)を達成し、ビデオデータでは52FPSを維持できた。
我々は、バウンディングボックスラベルを持つ大きなデータセットがキュレーション可能である場合、このタスクは、推論速度が優れ、主要な評価指標で十分なパフォーマンスがあるため、yoloやssdのようなオブジェクト検出アーキテクチャを使用するのが最適であると結論づけた。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - SimulFlow: Simultaneously Extracting Feature and Identifying Target for
Unsupervised Video Object Segmentation [28.19471998380114]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、人間が介在することなく、所定のビデオシーケンス内の一次オブジェクトを検出することを目的としている。
既存のほとんどの手法は、ターゲットを識別してオブジェクトマスクを生成する前に、外観と動き情報を別々に符号化する2ストリームアーキテクチャに依存している。
特徴抽出とターゲット識別を同時に行うSimulFlowと呼ばれる新しいUVOSモデルを提案する。
論文 参考訳(メタデータ) (2023-11-30T06:44:44Z) - Mask Propagation for Efficient Video Semantic Segmentation [63.09523058489429]
ビデオセマンティックベースライン劣化(VSS)は、ビデオシーケンス内の各ピクセルにセマンティックラベルを割り当てることを含む。
SSSSと呼ばれるVSSのための効率的なマスク伝搬フレームワークを提案する。
当社のフレームワークは,フレーム単位のMask2Formerと比較して最大4倍のFLOPを削減し,Cityscapes検証セット上では最大2% mIoUしか使用できない。
論文 参考訳(メタデータ) (2023-10-29T09:55:28Z) - Randomize to Generalize: Domain Randomization for Runway FOD Detection [1.4249472316161877]
細い物体検出は、小型化、低解像度化、オクルージョン化、背景クラッタ、照明条件、被写体対画像比の小さいため困難である。
本稿では,SRIA(Synthetic Image Augmentation)の新たな2段階手法を提案する。
検出精度は初期41%からOODテストセットの92%に改善した。
論文 参考訳(メタデータ) (2023-09-23T05:02:31Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - COVID-19 Monitoring System using Social Distancing and Face Mask
Detection on Surveillance video datasets [0.0]
本稿では,人物検出,ソーシャルディスタンシング違反検出,顔検出,顔マスク分類を行うための包括的で効果的なソリューションを提案する。
このシステムは、ラベル付きビデオデータセットで91.2%、F1スコア90.79%の精度で動作し、78フレームの平均予測時間は7.12秒である。
論文 参考訳(メタデータ) (2021-10-08T05:57:30Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。