論文の概要: CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization
- arxiv url: http://arxiv.org/abs/2008.08332v1
- Date: Wed, 19 Aug 2020 08:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 11:59:43.717778
- Title: CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization
- Title(参考訳): CFAD:時空間的行動局在のための粗い行動検出装置
- Authors: Yuxi Li, Weiyao Lin, John See, Ning Xu, Shugong Xu, Ke Yan and Cong
Yang
- Abstract要約: 効率的な動作位置決めのための粗い動作検出器(CFAD)を提案する。
CFADはまず、ビデオストリームから粗い管時間行動管を推定し、キータイムスタンプに基づいて位置を洗練する。
- 参考スコア(独自算出の注目度): 42.95186231216036
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Most current pipelines for spatio-temporal action localization connect
frame-wise or clip-wise detection results to generate action proposals, where
only local information is exploited and the efficiency is hindered by dense
per-frame localization. In this paper, we propose Coarse-to-Fine Action
Detector (CFAD),an original end-to-end trainable framework for efficient
spatio-temporal action localization. The CFAD introduces a new paradigm that
first estimates coarse spatio-temporal action tubes from video streams, and
then refines the tubes' location based on key timestamps. This concept is
implemented by two key components, the Coarse and Refine Modules in our
framework. The parameterized modeling of long temporal information in the
Coarse Module helps obtain accurate initial tube estimation, while the Refine
Module selectively adjusts the tube location under the guidance of key
timestamps. Against other methods, theproposed CFAD achieves competitive
results on action detection benchmarks of UCF101-24, UCFSports and JHMDB-21
with inference speed that is 3.3x faster than the nearest competitors.
- Abstract(参考訳): 時空間動作ローカライゼーションのための現在のパイプラインのほとんどは、フレームワイズまたはクリップワイズ検出結果を接続してアクション提案を生成する。
本稿では,効率的な時空間的行動ローカライゼーションを実現するために,従来のエンドツーエンドトレーニング可能なフレームワークであるCFAD(Coarse-to-Fine Action Detector)を提案する。
CFADは、まずビデオストリームから粗い時空間のアクションチューブを推定し、キータイムスタンプに基づいてチューブの位置を洗練する新しいパラダイムを導入する。
この概念は、我々のフレームワークの粗いモジュールと細かなモジュールという2つの重要なコンポーネントによって実装されます。
リファインモジュールはキータイムスタンプの誘導の下で管位置を選択的に調整するが、粗いモジュールの長時間時間情報のパラメータ化モデリングは正確な初期管推定を得るのに役立つ。
他の手法に対して、提案されたCFADは、UCF101-24、UCFSports、JHMDB-21のアクション検出ベンチマークにおいて、最も近い競合より3.3倍速い推論速度で競合する結果を得る。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - Exploring Stronger Feature for Temporal Action Localization [41.23726979184197]
時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。
我々は、古典的な畳み込みベースのバックボーンと、最近のトランスフォーマーベースのバックボーンの急増について検討した。
単純な組み合わせで単一のSlowFast機能を備えた検証セットのmAPで42.42%を達成する。
論文 参考訳(メタデータ) (2021-06-24T13:46:30Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - Revisiting Anchor Mechanisms for Temporal Action Localization [126.96340233561418]
本稿では,時間的視点による動作のローカライゼーションを支援するアンカーフリーな動作ローカライゼーションモジュールを提案する。
提案するアンカーフリーモジュールと従来のアンカーベースモジュールを組み合わせることで,A2Netと呼ばれる新しいアクションローカライゼーションフレームワークを提案する。
アンカーフリーモジュールとアンカーベースモジュールの協調はTHUMOS14の最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-08-22T13:39:29Z) - Actions as Moving Points [66.21507857877756]
我々は、MovingCenter Detector(MOC-detector)と呼ばれる概念的にシンプルで、効率的で、より精密なアクションチューブレット検出フレームワークを提案する。
動作情報が行動管検出を簡素化し,補助するという考えから,MOC検出器は3つの重要な頭部枝から構成される。
我々のMOC検出器は、JHMDBおよびUCF101-24データセット上のフレームmAPとビデオmAPの両方のメトリクスに対して、既存の最先端手法よりも優れています。
論文 参考訳(メタデータ) (2020-01-14T03:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。