論文の概要: Faster-TAD: Towards Temporal Action Detection with Proposal Generation
and Classification in a Unified Network
- arxiv url: http://arxiv.org/abs/2204.02674v1
- Date: Wed, 6 Apr 2022 08:55:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 14:06:22.900463
- Title: Faster-TAD: Towards Temporal Action Detection with Proposal Generation
and Classification in a Unified Network
- Title(参考訳): Faster-TAD:Unified Networkにおける提案生成と分類による時間的行動検出に向けて
- Authors: Shimin Chen, Chen Chen, Wei Li, Xunqiang Tao, Yandong Guo
- Abstract要約: 時間的アクション検出(TAD)は、未トリミングビデオにおけるアクションインスタンスのセマンティックラベルとバウンダリを検出することを目的としている。
我々は,Faster-RCNN のようなアーキテクチャを再利用し,TAD を Faster-TAD と呼ぶ統一ネットワークを提案する。
- 参考スコア(独自算出の注目度): 13.03191060554677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection (TAD) aims to detect the semantic labels and
boundaries of action instances in untrimmed videos. Current mainstream
approaches are multi-step solutions, which fall short in efficiency and
flexibility. In this paper, we propose a unified network for TAD, termed
Faster-TAD, by re-purposing a Faster-RCNN like architecture. To tackle the
unique difficulty in TAD, we make important improvements over the original
framework. We propose a new Context-Adaptive Proposal Module and an innovative
Fake-Proposal Generation Block. What's more, we use atomic action features to
improve the performance. Faster-TAD simplifies the pipeline of TAD and gets
remarkable performance on lots of benchmarks, i.e., ActivityNet-1.3 (40.01%
mAP), HACS Segments (38.39% mAP), SoccerNet-Action Spotting (54.09% mAP). It
outperforms existing single-network detector by a large margin.
- Abstract(参考訳): 時間的アクション検出(TAD)は、未トリミングビデオにおけるアクションインスタンスのセマンティックラベルとバウンダリを検出することを目的としている。
現在の主流のアプローチは、効率性と柔軟性に欠けるマルチステップソリューションである。
本稿では,Faster-RCNN のようなアーキテクチャを再構築し,TAD を Faster-TAD と呼ぶ統一ネットワークを提案する。
TADの独特な難しさに対処するため、私たちはオリジナルのフレームワークよりも重要な改善を行いました。
本稿では,新しいコンテキスト適応型提案モジュールと革新的Fake-Proposal Generation Blockを提案する。
さらに、パフォーマンスを改善するためにアトミックアクション機能を使用します。
高速TADはTADのパイプラインを単純化し、ActivityNet-1.3 (40.01% mAP), HACS Segments (38.39% mAP), SoccerNet-Action Spotting (54.09% mAP)など多くのベンチマークで顕著なパフォーマンスを得る。
これは既存の単一ネットワーク検出器を大きなマージンで上回っている。
関連論文リスト
- Technical Report for ActivityNet Challenge 2022 -- Temporal Action Localization [20.268572246761895]
本稿では,各アクションの時間的境界を特定し,未トリミングビデオにおけるアクションクラスを予測することを提案する。
Faster-TADは、TADのパイプラインを単純化し、素晴らしいパフォーマンスを得る。
論文 参考訳(メタデータ) (2024-10-31T14:16:56Z) - Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - End-to-end Temporal Action Detection with Transformer [86.80289146697788]
時間的アクション検出(TAD)は、トリミングされていないビデオにおいて、すべてのアクションインスタンスのセマンティックラベルとバウンダリを決定することを目的としている。
そこで我々は,textitTadTR と呼ばれる Transformer によるTAD のエンドツーエンドフレームワークを構築した。
本手法は,HACSセグメンツとTHUMOS14の最先端性能とActivityNet-1.3の競合性能を実現する。
論文 参考訳(メタデータ) (2021-06-18T17:58:34Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。