論文の概要: Exploring Stronger Feature for Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2106.13014v1
- Date: Thu, 24 Jun 2021 13:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-25 15:06:48.756422
- Title: Exploring Stronger Feature for Temporal Action Localization
- Title(参考訳): 時間的行動局在のより強固な特徴を探る
- Authors: Zhiwu Qing and Xiang Wang and Ziyuan Huang and Yutong Feng and Shiwei
Zhang and jianwen Jiang and Mingqian Tang and Changxin Gao and Nong Sang
- Abstract要約: 時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。
我々は、古典的な畳み込みベースのバックボーンと、最近のトランスフォーマーベースのバックボーンの急増について検討した。
単純な組み合わせで単一のSlowFast機能を備えた検証セットのmAPで42.42%を達成する。
- 参考スコア(独自算出の注目度): 41.23726979184197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization aims to localize starting and ending time with
action category. Limited by GPU memory, mainstream methods pre-extract features
for each video. Therefore, feature quality determines the upper bound of
detection performance. In this technical report, we explored classic
convolution-based backbones and the recent surge of transformer-based
backbones. We found that the transformer-based methods can achieve better
classification performance than convolution-based, but they cannot generate
accuracy action proposals. In addition, extracting features with larger frame
resolution to reduce the loss of spatial information can also effectively
improve the performance of temporal action localization. Finally, we achieve
42.42% in terms of mAP on validation set with a single SlowFast feature by a
simple combination: BMN+TCANet, which is 1.87% higher than the result of 2020's
multi-model ensemble. Finally, we achieve Rank 1st on the CVPR2021 HACS
supervised Temporal Action Localization Challenge.
- Abstract(参考訳): 時間的アクションローカライゼーションは、アクションカテゴリによる開始と終了の時間をローカライズすることを目的としている。
GPUメモリによって制限されたメインストリームメソッドは、各ビデオの機能を事前に抽出する。
したがって、特徴品質は検出性能の上限を決定する。
本技術報告では, 古典的畳み込みベースバックボーンと最近の変圧器ベースバックボーンの急増について検討した。
変換器を用いた手法は畳み込み方式よりも優れた分類性能が得られるが,精度の高い動作提案は生成できない。
さらに、空間情報の損失を低減するためにフレーム解像度を大きくした特徴抽出は、時間的行動局所化の性能を効果的に向上させることができる。
最後に,2020年のマルチモデルアンサンブルの結果より1.87%高いbmn+tcanetという単純な組み合わせで,単一のスローファスト機能を持つバリデーションセットのマップで42.42%を達成した。
最後に,CVPR2021 HACSによる時間的行動局所化チャレンジのランク1を達成した。
関連論文リスト
- Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - An Efficient Spatio-Temporal Pyramid Transformer for Action Detection [40.68615998427292]
動作検出のための効率的な階層型時空間ピラミッド変換(STPT)ビデオフレームワークを提案する。
具体的には,早期の局所的時間的リッチタイム表現を符号化するために,局所的ウィンドウアテンションを用いて,後期の長期的時空間依存を捕捉するためにグローバルなアテンションを適用することを提案する。
このように、当社のSTPTは、局所性と依存性の両方を大幅に冗長化してエンコードすることができ、正確性と効率の両立を期待できるトレードオフを提供します。
論文 参考訳(メタデータ) (2022-07-21T12:38:05Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z) - CFAD: Coarse-to-Fine Action Detector for Spatiotemporal Action
Localization [42.95186231216036]
効率的な動作位置決めのための粗い動作検出器(CFAD)を提案する。
CFADはまず、ビデオストリームから粗い管時間行動管を推定し、キータイムスタンプに基づいて位置を洗練する。
論文 参考訳(メタデータ) (2020-08-19T08:47:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。