論文の概要: Spatiotemporal Action Recognition in Restaurant Videos
- arxiv url: http://arxiv.org/abs/2008.11149v1
- Date: Tue, 25 Aug 2020 16:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 02:59:34.047436
- Title: Spatiotemporal Action Recognition in Restaurant Videos
- Title(参考訳): レストランビデオにおける時空間行動認識
- Authors: Akshat Gupta, Milan Desai, Wusheng Liang, Magesh Kannan
- Abstract要約: 我々は、自動チェックアウトや在庫管理など、潜在的な応用が考えられるレストラン労働者の映像を分析した。
このようなビデオは、小さなオブジェクトや迅速なアクション、不均衡なデータクラスなど、研究者が慣れ親しんだ標準化データセットとはまったく異なる。
はじめに、畳み込みLSTMを用いたYOLOの繰り返し修正を設計、実装し、そのようなネットワークのトレーニングにおける様々な微妙さについて検討する。
第2に、YOWOの3次元畳み込みによるユニークなデータセットの特徴を捉える能力について検討する。
- 参考スコア(独自算出の注目度): 0.9176056742068814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal action recognition is the task of locating and classifying
actions in videos. Our project applies this task to analyzing video footage of
restaurant workers preparing food, for which potential applications include
automated checkout and inventory management. Such videos are quite different
from the standardized datasets that researchers are used to, as they involve
small objects, rapid actions, and notoriously unbalanced data classes. We
explore two approaches. The first approach involves the familiar object
detector You Only Look Once, and another applying a recently proposed analogue
for action recognition, You Only Watch Once. In the first, we design and
implement a novel, recurrent modification of YOLO using convolutional LSTMs and
explore the various subtleties in the training of such a network. In the
second, we study the ability of YOWOs three dimensional convolutions to capture
the spatiotemporal features of our unique dataset
- Abstract(参考訳): 時空間行動認識はビデオ内の行動の特定と分類のタスクである。
このプロジェクトでは,レストランの作業員が食事を準備するビデオ映像を分析し,自動チェックアウトや在庫管理などの応用の可能性について検討する。
このようなビデオは、小さなオブジェクトや迅速なアクション、不均衡なデータクラスなど、研究者が慣れ親しんだ標準化データセットとはまったく異なる。
2つのアプローチを探求する。
最初のアプローチは、おなじみのオブジェクト検出器You Only Look Onceと、最近提案されたアナログをアクション認識に応用するYou Only Watch Onceだ。
はじめに、畳み込みLSTMを用いたYOLOの繰り返し修正を設計、実装し、そのようなネットワークのトレーニングにおける様々な微妙さについて検討する。
第二に, ヨウの3次元畳み込みが, 固有データセットの時空間的特徴を捉える能力について検討する。
関連論文リスト
- Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Is an Object-Centric Video Representation Beneficial for Transfer? [86.40870804449737]
トランスアーキテクチャ上にオブジェクト中心のビデオ認識モデルを導入する。
対象中心モデルが先行映像表現より優れていることを示す。
論文 参考訳(メタデータ) (2022-07-20T17:59:44Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Towards Improving Spatiotemporal Action Recognition in Videos [0.0]
最新鋭のリアルタイムオブジェクト検出器You Only Watch Once(YOWO)をモチーフに、その構造を変更して、アクション検出精度を高めることを目指しています。
ビデオにおけるYOWOの改善と不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-12-15T05:21:50Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Anomaly Detection in Video via Self-Supervised and Multi-Task Learning [113.81927544121625]
ビデオにおける異常検出は、コンピュータビジョンの問題である。
本稿では,オブジェクトレベルでの自己教師型およびマルチタスク学習を通じて,ビデオ中の異常事象検出にアプローチする。
論文 参考訳(メタデータ) (2020-11-15T10:21:28Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。