論文の概要: Privacy-Aware Activity Classification from First Person Office Videos
- arxiv url: http://arxiv.org/abs/2006.06246v1
- Date: Thu, 11 Jun 2020 08:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 13:59:36.748395
- Title: Privacy-Aware Activity Classification from First Person Office Videos
- Title(参考訳): ファーストパーソンオフィスビデオからのプライバシー対応行動分類
- Authors: Partho Ghosh, Md. Abrar Istiak, Nayeeb Rashid, Ahsan Habib Akash,
Ridwan Abrar, Ankan Ghosh Dastider, Asif Shahriyar Sushmit, Taufiq Hasan
- Abstract要約: オフィスビデオに焦点をあてたプライバシー対応活動分類システムを開発した。
アクティビティ分類には、ResNet、ResNext、DenseNetをベースとした特徴抽出器と、Recurrent Neural Networks(RNN)のアンサンブルを組み込む。
このシステムはIEEE VIPカップ2019の大会で3位に輝いた。
- 参考スコア(独自算出の注目度): 1.3192560874022086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the advent of wearable body-cameras, human activity classification from
First-Person Videos (FPV) has become a topic of increasing importance for
various applications, including in life-logging, law-enforcement, sports,
workplace, and healthcare. One of the challenging aspects of FPV is its
exposure to potentially sensitive objects within the user's field of view. In
this work, we developed a privacy-aware activity classification system focusing
on office videos. We utilized a Mask-RCNN with an Inception-ResNet hybrid as a
feature extractor for detecting, and then blurring out sensitive objects (e.g.,
digital screens, human face, paper) from the videos. For activity
classification, we incorporate an ensemble of Recurrent Neural Networks (RNNs)
with ResNet, ResNext, and DenseNet based feature extractors. The proposed
system was trained and evaluated on the FPV office video dataset that includes
18-classes made available through the IEEE Video and Image Processing (VIP) Cup
2019 competition. On the original unprotected FPVs, the proposed activity
classifier ensemble reached an accuracy of 85.078% with precision, recall, and
F1 scores of 0.88, 0.85 & 0.86, respectively. On privacy protected videos, the
performances were slightly degraded, with accuracy, precision, recall, and F1
scores at 73.68%, 0.79, 0.75, and 0.74, respectively. The presented system won
the 3rd prize in the IEEE VIP Cup 2019 competition.
- Abstract(参考訳): ウェアラブルボディカメラの出現により、ファーストパーソンビデオ(fpv)からのヒューマンアクティビティの分類は、生命記録、法執行、スポーツ、職場、医療など、様々なアプリケーションでの重要性が高まっている。
FPVの難しい側面の1つは、ユーザーの視野内で潜在的に敏感なオブジェクトに露出することである。
本研究では,オフィスビデオに着目したプライバシー対応活動分類システムを開発した。
mask-rcnnとinception-resnetハイブリッドを特徴抽出器として使用し,映像からセンシティブな物体(例えば,デジタル画面,人間の顔,紙)をぼかす。
アクティビティ分類には、ResNet、ResNext、DenseNetをベースとした特徴抽出器と、Recurrent Neural Networks(RNN)のアンサンブルを組み込む。
提案システムは、IEEE Video and Image Processing (VIP) Cup 2019で利用可能な18クラスを含むFPVオフィスビデオデータセットをトレーニングし、評価した。
元々の非保護FPVでは、提案された活性分類器のアンサンブルは精度85.078%に達し、精度、リコール、F1スコアはそれぞれ0.88、0.85、0.86となった。
プライバシー保護ビデオでは、精度、精度、リコール、F1スコアはそれぞれ73.68%、0.79、0.75、0.74で若干劣化した。
このシステムはIEEE VIPカップ2019コンクールで3位を獲得した。
関連論文リスト
- 3rd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation [63.199793919573295]
ビデオオブジェクト(VOS)はコンピュータビジョンにおいて重要なタスクであり、ビデオフレーム間の背景から前景オブジェクトを区別することに焦点を当てている。
我々の研究はCutieモデルからインスピレーションを得ており、オブジェクトメモリ、メモリフレームの総数、および入力解像度がセグメンテーション性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-06T00:56:25Z) - Revisiting Feature Prediction for Learning Visual Representations from Video [62.08833572467379]
V-JEPAは、機能予測の目的のみを用いて訓練された視覚モデルの集合である。
モデルは、公開データセットから収集された200万のビデオに基づいてトレーニングされる。
以上の結果から,映像特徴の予測による学習が視覚表現の多目的化につながることが示唆された。
論文 参考訳(メタデータ) (2024-02-15T18:59:11Z) - Where are we in the search for an Artificial Visual Cortex for Embodied
Intelligence? [106.81451807227103]
Embodied AIのための、事前訓練された視覚表現(PVR)や視覚的「基礎モデル」に関する、最大かつ最も包括的な実証研究を提示する。
事前学習したデータサイズと多様性の効果を調べるため、7つの異なるソースから4000時間以上のエゴセントリックなビデオを合成する。
当社の最大のモデルであるVC-1は、従来のPVRを平均で上回っているが、どちらも支配的ではない。
論文 参考訳(メタデータ) (2023-03-31T17:56:33Z) - Visual Object Tracking in First Person Vision [33.62651949312872]
この研究は、150の濃密な注釈付きビデオシーケンスからなる新しいベンチマークデータセットであるTREK-150の導入によって実現された。
その結果、FPVにおける物体追跡は、現在の視覚トラッカーに新たな課題をもたらすことが示された。
論文 参考訳(メタデータ) (2022-09-27T16:18:47Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Is First Person Vision Challenging for Object Tracking? [32.64792520537041]
ファースト・パーソナリティ・ビジョン(FPV)における物体追跡に関する最初の体系的研究について述べる。
本研究は,近年の視覚トラッカーとベースライン型FPVトラッカーの性能を,異なる側面と新たな性能指標を考慮して広範囲に解析する。
以上の結果から,FPVにおける物体追跡は困難であることが示唆された。
論文 参考訳(メタデータ) (2021-08-31T08:06:01Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Privacy-Preserving Video Classification with Convolutional Neural
Networks [8.51142156817993]
本稿では,畳み込みニューラルネットワークを用いた単一フレーム方式のビデオ分類のプライバシ保護実装を提案する。
個人の感情認識への応用として提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-02-06T05:05:31Z) - Personal Privacy Protection via Irrelevant Faces Tracking and Pixelation
in Video Live Streaming [61.145467627057194]
我々は、ビデオライブストリーミングにおいて、自動プライバシーフィルタリングを生成するためのFace Pixelationと呼ばれる新しい方法を開発した。
無関係な人々の顔の高速かつ正確なピクセル化のために、FPVLSは2つのコアステージのフレームツービデオ構造で構成されています。
収集したビデオライブストリーミングデータセットにおいて、FPVLSは満足度の高い精度、リアルタイム効率を取得し、オーバーピクセル問題を含む。
論文 参考訳(メタデータ) (2021-01-04T16:18:26Z) - Is First Person Vision Challenging for Object Tracking? [33.62651949312872]
第一人物視(FPV)における物体追跡に関する最初の体系的研究の要約を提供する。
本研究は,近年のFPVトラッカーとベースライントラッカーの性能を,異なる側面から広く分析する。
以上の結果から, 追尾作業の便宜を図るため, この問題により多くの研究努力が注がれることが示唆された。
論文 参考訳(メタデータ) (2020-11-24T18:18:15Z) - Personalizing Fast-Forward Videos Based on Visual and Textual Features
from Social Network [9.353403626477135]
我々は、ファーストパーソンビデオ(FPV)のためのパーソナライズされたファストフォワードビデオを自動的に作成する新しいアプローチを提案する。
提案手法では,ユーザのソーシャルネットワークからテキスト中心のデータを用いて,興味のあるトピックを推測し,好みに応じてスコアを入力フレームに割り当てる。
論文 参考訳(メタデータ) (2019-12-29T14:09:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。