論文の概要: Long Term Object Detection and Tracking in Collaborative Learning
Environments
- arxiv url: http://arxiv.org/abs/2106.07556v1
- Date: Wed, 2 Jun 2021 20:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 20:40:29.456764
- Title: Long Term Object Detection and Tracking in Collaborative Learning
Environments
- Title(参考訳): 協調学習環境における長期物体検出と追跡
- Authors: Sravani Teeparthi
- Abstract要約: 私の論文は、長いビデオ中の物体を検出し、追跡するための正確な方法の開発に焦点を当てている。
すべてのモデルは、7つのセッションから45分から90分まで、ビデオで検証される。
0.5 IoUで平均精度(AP)を72%達成し, 最適データ拡張パラメータを用いて81%に改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human activity recognition in videos is a challenging problem that has drawn
a lot of interest, particularly when the goal requires the analysis of a large
video database. AOLME project provides a collaborative learning environment for
middle school students to explore mathematics, computer science, and
engineering by processing digital images and videos. As part of this project,
around 2200 hours of video data was collected for analysis. Because of the size
of the dataset, it is hard to analyze all the videos of the dataset manually.
Thus, there is a huge need for reliable computer-based methods that can detect
activities of interest. My thesis is focused on the development of accurate
methods for detecting and tracking objects in long videos. All the models are
validated on videos from 7 different sessions, ranging from 45 minutes to 90
minutes. The keyboard detector achieved a very high average precision (AP) of
92% at 0.5 intersection over union (IoU). Furthermore, a combined system of the
detector with a fast tracker KCF (159fps) was developed so that the algorithm
runs significantly faster without sacrificing accuracy. For a video of 23
minutes having resolution 858X480 @ 30 fps, the detection alone runs at 4.7Xthe
real-time, and the combined algorithm runs at 21Xthe real-time for an average
IoU of 0.84 and 0.82, respectively. The hand detector achieved average
precision (AP) of 72% at 0.5 IoU. The detection results were improved to 81%
using optimal data augmentation parameters. The hand detector runs at 4.7Xthe
real-time with AP of 81% at 0.5 IoU. The hand detection method was integrated
with projections and clustering for accurate proposal generation. This approach
reduced the number of false-positive hand detections by 80%. The overall hand
detection system runs at 4Xthe real-time, capturing all the activity regions of
the current collaborative group.
- Abstract(参考訳): ビデオにおける人間の活動認識は、特に大きなビデオデータベースの分析を必要とする場合、多くの関心を集めている難しい問題である。
AOLMEプロジェクトは、中学生がデジタル画像やビデオを処理することで、数学、計算機科学、工学を探求するための協調学習環境を提供する。
このプロジェクトの一環として、分析のために約2200時間のビデオデータが収集された。
データセットのサイズのため、データセットのすべての動画を手作業で分析することは困難である。
したがって、関心のあるアクティビティを検出できる信頼性の高いコンピュータベースの方法が必要となる。
私の論文は、長いビデオの中でオブジェクトを検出し追跡するための正確な方法の開発に焦点を当てています。
すべてのモデルは、7つのセッションから45分から90分まで、ビデオで検証される。
キーボード検出器は、結合(IoU)の0.5の交差点で92%の非常に高い平均精度(AP)を達成した。
さらに,高速トラッカーKCF(159fps)を併用した検出器システムを開発し,精度を犠牲にすることなくアルゴリズムの動作を著しく高速化した。
解像度858X480 @30 fpsの23分間のビデオでは、検出のみを4.7倍、組み合わせたアルゴリズムを平均IoUの0.84倍と0.82倍の21倍の速度で実行する。
ハンド検出器は0.5IoUで平均精度(AP)を72%達成した。
最適なデータ拡張パラメータを用いて検出結果が81%に向上した。
ハンド検出器は4.7倍、APは81%、IoUは0.5である。
提案手法は投射とクラスタリングと統合して正確な提案生成を行う。
このアプローチは偽陽性手の検出数を80%削減する。
全体の手検出システムは4倍の速度で動作し、現在の共同作業グループのすべての活動領域をキャプチャする。
関連論文リスト
- Large-scale Remote Sensing Image Target Recognition and Automatic Annotation [0.0]
LRSAAと呼ばれる大面積リモートセンシング画像におけるオブジェクト認識と自動ラベリングの手法を提案する。
YOLOv11とMobileNetV3-SSDオブジェクト検出アルゴリズムをアンサンブル学習により統合し,モデル性能を向上させる。
論文 参考訳(メタデータ) (2024-11-12T13:57:13Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - 6D Pose Estimation with Combined Deep Learning and 3D Vision Techniques
for a Fast and Accurate Object Grasping [0.19686770963118383]
リアルタイムロボットの把握は高度な自律システムにとって最優先の目標である。
本稿では,ディープニューラルネットワークを用いた高速な2次元物体認識を組み合わせた2段階手法を提案する。
提案手法は、効率と精度の両方を必要とせず、リアルタイムアプリケーションで堅牢に動作する可能性がある。
論文 参考訳(メタデータ) (2021-11-11T15:36:55Z) - Fast Hand Detection in Collaborative Learning Environments [7.954705422811769]
長期オブジェクト検出には、フレームベースの結果を数秒以上統合する必要がある。
協調学習環境における長時間のビデオ記録における手検出について検討した。
提案手法はオブジェクト検出を統合し,時間投影,クラスタリング,小領域削除を行う。
論文 参考訳(メタデータ) (2021-10-13T22:50:15Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Motion Vector Extrapolation for Video Object Detection [0.0]
MOVEXは、一般的なCPUベースのシステムで低レイテンシのビデオオブジェクト検出を可能にする。
提案手法は,任意の対象検出器のベースライン遅延を著しく低減することを示す。
さらなるレイテンシ低減は、元のレイテンシよりも最大25倍低いもので、最小限の精度で達成できる。
論文 参考訳(メタデータ) (2021-04-18T17:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。