論文の概要: An Empirical Study of End-to-End Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2204.02932v1
- Date: Wed, 6 Apr 2022 16:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 16:49:33.634493
- Title: An Empirical Study of End-to-End Temporal Action Detection
- Title(参考訳): 終端から終端までの動作検出に関する実証的研究
- Authors: Xiaolong Liu, Song Bai, Xiang Bai
- Abstract要約: 時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
- 参考スコア(独自算出の注目度): 82.64373812690127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection (TAD) is an important yet challenging task in video
understanding. It aims to simultaneously predict the semantic label and the
temporal interval of every action instance in an untrimmed video. Rather than
end-to-end learning, most existing methods adopt a head-only learning paradigm,
where the video encoder is pre-trained for action classification, and only the
detection head upon the encoder is optimized for TAD. The effect of end-to-end
learning is not systematically evaluated. Besides, there lacks an in-depth
study on the efficiency-accuracy trade-off in end-to-end TAD. In this paper, we
present an empirical study of end-to-end temporal action detection. We validate
the advantage of end-to-end learning over head-only learning and observe up to
11\% performance improvement. Besides, we study the effects of multiple design
choices that affect the TAD performance and speed, including detection head,
video encoder, and resolution of input videos. Based on the findings, we build
a mid-resolution baseline detector, which achieves the state-of-the-art
performance of end-to-end methods while running more than 4$\times$ faster. We
hope that this paper can serve as a guide for end-to-end learning and inspire
future research in this field. Code and models are available at
\url{https://github.com/xlliu7/E2E-TAD}.
- Abstract(参考訳): 時間的行動検出(TAD)はビデオ理解において重要な課題である。
これは、未トリミングビデオ中のすべてのアクションインスタンスの意味ラベルと時間間隔を同時に予測することを目的としている。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ビデオエンコーダをアクション分類のために事前訓練し、エンコーダ上の検出ヘッドのみをTADに最適化するヘッドオンリーの学習パラダイムを採用している。
エンドツーエンド学習の効果は体系的に評価されない。
さらに、エンドツーエンドのtadにおける効率・正確性に関する詳細な研究が欠けている。
本稿では,エンド・ツー・エンドの時間的行動検出に関する実証的研究を行う。
ヘッドオンリー学習よりもエンド・ツー・エンド学習の利点を検証し,最大11対%のパフォーマンス改善を観察した。
さらに, 検出ヘッド, ビデオエンコーダ, インプットビデオの解像度など, TAD性能と速度に影響を与える複数の設計選択の影響について検討した。
この結果に基づき,4$\times以上を高速に動作しながら,エンドツーエンド手法の最先端性能を実現する中高分解能ベースライン検出器を構築した。
この論文が、エンド・ツー・エンドの学習のガイドとなり、この分野の今後の研究を刺激できることを願っている。
コードとモデルは \url{https://github.com/xlliu7/e2e-tad} で利用可能である。
関連論文リスト
- Deep Learning for Video Anomaly Detection: A Review [52.74513211976795]
ビデオ異常検出(VAD)は、ビデオの正常性から逸脱する行動や事象を発見することを目的としている。
ディープラーニングの時代には、VADタスクには、さまざまなディープラーニングベースの方法が常に現れています。
このレビューでは、半教師付き、弱教師付き、完全教師付き、非教師付き、オープンセットの5つのカテゴリのスペクトルについて取り上げる。
論文 参考訳(メタデータ) (2024-09-09T07:31:16Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。