論文の概要: A Stronger Baseline for Ego-Centric Action Detection
- arxiv url: http://arxiv.org/abs/2106.06942v1
- Date: Sun, 13 Jun 2021 08:11:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 16:01:48.076026
- Title: A Stronger Baseline for Ego-Centric Action Detection
- Title(参考訳): Ego-Centric Action Detectionのためのより強力なベースライン
- Authors: Zhiwu Qing, Ziyuan Huang, Xiang Wang, Yutong Feng, Shiwei Zhang,
Jianwen Jiang, Mingqian Tang, Changxin Gao, Marcelo H. Ang Jr, Nong Sang,
- Abstract要約: 本稿では,CVPR2021ワークショップ主催のEPIC-KITCHENS-100コンペティションで使用した,エゴセントリックなビデオアクション検出手法について分析する。
我々の課題は、長い未トリミングビデオでアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウインドウ戦略を採用する。
- 参考スコア(独自算出の注目度): 38.934802199184354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report analyzes an egocentric video action detection method we
used in the 2021 EPIC-KITCHENS-100 competition hosted in CVPR2021 Workshop. The
goal of our task is to locate the start time and the end time of the action in
the long untrimmed video, and predict action category. We adopt sliding window
strategy to generate proposals, which can better adapt to short-duration
actions. In addition, we show that classification and proposals are conflict in
the same network. The separation of the two tasks boost the detection
performance with high efficiency. By simply employing these strategy, we
achieved 16.10\% performance on the test set of EPIC-KITCHENS-100 Action
Detection challenge using a single model, surpassing the baseline method by
11.7\% in terms of average mAP.
- Abstract(参考訳): 本技術報告では,CVPR2021ワークショップで開催された2021 EPIC-KITCHENS-100コンペティションで使用したエゴセントリックなビデオアクション検出手法について分析する。
私たちのタスクの目標は、アクションの開始時刻と終了時刻を、長い未トリミングビデオで特定し、アクションカテゴリを予測することです。
我々は、ショートデュレーションアクションに適応できる提案を生成するためにスライディングウィンドウ戦略を採用する。
さらに,同ネットワークでは分類と提案が矛盾していることを示す。
2つのタスクの分離により、高い効率で検出性能が向上する。
これらの戦略を単純に活用することで,1つのモデルを用いたEPIC-KITCHENS-100行動検出実験において,平均mAPの基準法を1.7%上回る16.10\%の性能を達成した。
関連論文リスト
- Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Temporal Action Localization Using Gated Recurrent Units [6.091096843566857]
本稿では, Gated Recurrent Unit (GRU) に基づく新しいネットワークと, TALタスクのための2つの新しい後処理手法を提案する。
具体的には、GRU-Splittedモデルと呼ばれる、GRUの出力層に対する新しい設計を提案する。
提案手法の性能を最先端手法と比較して評価する。
論文 参考訳(メタデータ) (2021-08-07T06:25:29Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Temporal Fusion Network for Temporal Action Localization:Submission to
ActivityNet Challenge 2020 (Task E) [45.3218136336925]
本稿では,Activitynet Challenge 2020で開催されているHACSコンペティションで使用した時間的行動ローカライズ手法について分析する。
課題は、未トリミングビデオ中のアクションの開始時刻と終了時刻を特定し、アクションカテゴリを予測することである。
提案手法は,複数のモデルの結果を融合することにより,検証セットで40.55%,mAPで40.53%を獲得し,この課題においてランク1を達成する。
論文 参考訳(メタデータ) (2020-06-13T00:33:00Z) - Fast Template Matching and Update for Video Object Tracking and
Segmentation [56.465510428878]
私たちが取り組もうとしている主な課題は、フレームの列にまたがるマルチインスタンスの半教師付きビデオオブジェクトセグメンテーションである。
課題は、結果を予測するためのマッチングメソッドの選択と、ターゲットテンプレートを更新するかどうかを決定することである。
本稿では,これら2つの決定を同時に行うために,強化学習を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T08:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。