論文の概要: Towards Improving Spatiotemporal Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2012.08097v1
- Date: Tue, 15 Dec 2020 05:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:25:01.651600
- Title: Towards Improving Spatiotemporal Action Recognition in Videos
- Title(参考訳): ビデオにおける時空間行動認識の改善に向けて
- Authors: Shentong Mo, Xiaoqing Tan, Jingfei Xia, Pinxu Ren
- Abstract要約: 最新鋭のリアルタイムオブジェクト検出器You Only Watch Once(YOWO)をモチーフに、その構造を変更して、アクション検出精度を高めることを目指しています。
ビデオにおけるYOWOの改善と不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal action recognition deals with locating and classifying actions
in videos. Motivated by the latest state-of-the-art real-time object detector
You Only Watch Once (YOWO), we aim to modify its structure to increase action
detection precision and reduce computational time. Specifically, we propose
four novel approaches in attempts to improve YOWO and address the imbalanced
class issue in videos by modifying the loss function. We consider two
moderate-sized datasets to apply our modification of YOWO - the popular
Joint-annotated Human Motion Data Base (J-HMDB-21) and a private dataset of
restaurant video footage provided by a Carnegie Mellon University-based
startup, Agot.AI. The latter involves fast-moving actions with small objects as
well as unbalanced data classes, making the task of action localization more
challenging. We implement our proposed methods in the GitHub repository
https://github.com/stoneMo/YOWOv2.
- Abstract(参考訳): 時空間的行動認識はビデオ内の行動の特定と分類を扱う。
最新の最先端のリアルタイム物体検出装置であるYou Only Watch Once (YOWO)に触発された我々は、その構造を変更して行動検出精度を高め、計算時間を短縮することを目指している。
具体的には,yowoの改良と,ロス関数の修正によるビデオの不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
カーネギーメロン大学に本拠を置くスタートアップAgot.AIが提供したレストランビデオのプライベートデータセットであるJ-HMDB-21(Joint-annotated Human Motion Data Base)を応用するための2つの中規模データセットを検討する。
後者は、小さなオブジェクトで素早く動くアクションと不均衡なデータクラスを含み、アクションローカライゼーションのタスクをより難しくする。
提案したメソッドはGitHubリポジトリ https://github.com/stoneMo/YOWOv2で実装しています。
関連論文リスト
- Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Look for the Change: Learning Object States and State-Modifying Actions
from Untrimmed Web Videos [55.60442251060871]
人間の行動は、しばしば「リンゴを切る」や「コーヒーを飲む」といった対象状態の変化を引き起こす。
我々は、対応する対象状態とともに、状態修正動作を協調学習するための自己教師型モデルを開発する。
本モデルでは,ノイズ適応重み付けモジュールを少数の注釈付静止画像で教師する。
論文 参考訳(メタデータ) (2022-03-22T11:45:10Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Spatiotemporal Action Recognition in Restaurant Videos [0.9176056742068814]
我々は、自動チェックアウトや在庫管理など、潜在的な応用が考えられるレストラン労働者の映像を分析した。
このようなビデオは、小さなオブジェクトや迅速なアクション、不均衡なデータクラスなど、研究者が慣れ親しんだ標準化データセットとはまったく異なる。
はじめに、畳み込みLSTMを用いたYOLOの繰り返し修正を設計、実装し、そのようなネットワークのトレーニングにおける様々な微妙さについて検討する。
第2に、YOWOの3次元畳み込みによるユニークなデータセットの特徴を捉える能力について検討する。
論文 参考訳(メタデータ) (2020-08-25T16:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。