論文の概要: Towards Improving Spatiotemporal Action Recognition in Videos
- arxiv url: http://arxiv.org/abs/2012.08097v1
- Date: Tue, 15 Dec 2020 05:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:25:01.651600
- Title: Towards Improving Spatiotemporal Action Recognition in Videos
- Title(参考訳): ビデオにおける時空間行動認識の改善に向けて
- Authors: Shentong Mo, Xiaoqing Tan, Jingfei Xia, Pinxu Ren
- Abstract要約: 最新鋭のリアルタイムオブジェクト検出器You Only Watch Once(YOWO)をモチーフに、その構造を変更して、アクション検出精度を高めることを目指しています。
ビデオにおけるYOWOの改善と不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatiotemporal action recognition deals with locating and classifying actions
in videos. Motivated by the latest state-of-the-art real-time object detector
You Only Watch Once (YOWO), we aim to modify its structure to increase action
detection precision and reduce computational time. Specifically, we propose
four novel approaches in attempts to improve YOWO and address the imbalanced
class issue in videos by modifying the loss function. We consider two
moderate-sized datasets to apply our modification of YOWO - the popular
Joint-annotated Human Motion Data Base (J-HMDB-21) and a private dataset of
restaurant video footage provided by a Carnegie Mellon University-based
startup, Agot.AI. The latter involves fast-moving actions with small objects as
well as unbalanced data classes, making the task of action localization more
challenging. We implement our proposed methods in the GitHub repository
https://github.com/stoneMo/YOWOv2.
- Abstract(参考訳): 時空間的行動認識はビデオ内の行動の特定と分類を扱う。
最新の最先端のリアルタイム物体検出装置であるYou Only Watch Once (YOWO)に触発された我々は、その構造を変更して行動検出精度を高め、計算時間を短縮することを目指している。
具体的には,yowoの改良と,ロス関数の修正によるビデオの不均衡なクラス問題に対処するための4つの新しいアプローチを提案する。
カーネギーメロン大学に本拠を置くスタートアップAgot.AIが提供したレストランビデオのプライベートデータセットであるJ-HMDB-21(Joint-annotated Human Motion Data Base)を応用するための2つの中規模データセットを検討する。
後者は、小さなオブジェクトで素早く動くアクションと不均衡なデータクラスを含み、アクションローカライゼーションのタスクをより難しくする。
提案したメソッドはGitHubリポジトリ https://github.com/stoneMo/YOWOv2で実装しています。
関連論文リスト
- Learning to Refactor Action and Co-occurrence Features for Temporal
Action Localization [74.74339878286935]
アクション機能と共起機能は、しばしばビデオの実際のアクションコンテンツを支配します。
ビデオスニペット内でこれらの2種類の特徴を分離することで,新しい補助タスクを開発する。
まず、アクション内容を明示的に分解し、その共起機能を正規化します。
論文 参考訳(メタデータ) (2022-06-23T06:30:08Z) - SOS! Self-supervised Learning Over Sets Of Handled Objects In Egocentric
Action Recognition [35.4163266882568]
本稿では,SOS(Self-Supervised Learning Over Sets)を導入し,OIC(ジェネリック・オブジェクト・イン・コンタクト)表現モデルを事前学習する。
OICは複数の最先端ビデオ分類モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2022-04-10T23:27:19Z) - E^2TAD: An Energy-Efficient Tracking-based Action Detector [78.90585878925545]
本稿では,事前定義されたキーアクションを高精度かつ効率的にローカライズするためのトラッキングベースソリューションを提案する。
UAV-Video Track of 2021 Low-Power Computer Vision Challenge (LPCVC)で優勝した。
論文 参考訳(メタデータ) (2022-04-09T07:52:11Z) - Class-Incremental Learning for Action Recognition in Videos [44.923719189467164]
ビデオ認識のためのクラス増分学習の文脈において、破滅的な忘れの問題に取り組む。
筆者らのフレームワークは、時間チャンネルの重要度マップを導入し、重要度マップを利用して、入ってくるサンプルの表現を学習することで、この課題に対処する。
提案手法は,UCF101, HMDB51, Some-Something V2データセット上に構築されたクラスインクリメンタルな行動認識ベンチマークを新たに分割する手法である。
論文 参考訳(メタデータ) (2022-03-25T12:15:49Z) - Look for the Change: Learning Object States and State-Modifying Actions
from Untrimmed Web Videos [55.60442251060871]
人間の行動は、しばしば「リンゴを切る」や「コーヒーを飲む」といった対象状態の変化を引き起こす。
我々は、対応する対象状態とともに、状態修正動作を協調学習するための自己教師型モデルを開発する。
本モデルでは,ノイズ適応重み付けモジュールを少数の注釈付静止画像で教師する。
論文 参考訳(メタデータ) (2022-03-22T11:45:10Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Exploring Motion and Appearance Information for Temporal Sentence
Grounding [52.01687915910648]
本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2022-01-03T02:44:18Z) - Deep Motion Prior for Weakly-Supervised Temporal Action Localization [35.25323276744999]
Weakly-Supervised Temporal Action Localization (WSTAL) は、ビデオレベルのラベルだけで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
現在、最先端のWSTALメソッドのほとんどは、Multi-Instance Learning (MIL)パイプラインに従っています。
既存の手法では,1)動作情報の不十分な使用,2)広汎なクロスエントロピートレーニング損失の相容れない2つの重要な欠点が指摘されている。
論文 参考訳(メタデータ) (2021-08-12T08:51:36Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - FineAction: A Fined Video Dataset for Temporal Action Localization [60.90129329728657]
FineActionは、既存のビデオデータセットとWebビデオから収集された、新しい大規模なファインドビデオデータセットである。
このデータセットには、106のアクションカテゴリにまたがる約17Kの未トリミングビデオに高密度にアノテートされた139Kのアクションインスタンスが含まれている。
実験結果から,FineActionは短い期間のファインドおよびマルチラベルインスタンス上でのアクションローカライゼーションに新たな課題をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2021-05-24T06:06:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。