論文の概要: Towards High-Quality Temporal Action Detection with Sparse Proposals
- arxiv url: http://arxiv.org/abs/2109.08847v1
- Date: Sat, 18 Sep 2021 06:15:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:30:54.748683
- Title: Towards High-Quality Temporal Action Detection with Sparse Proposals
- Title(参考訳): スパース提案による高品質時間行動検出に向けて
- Authors: Jiannan Wu, Peize Sun, Shoufa Chen, Jiewen Yang, Zihao Qi, Lan Ma,
Ping Luo
- Abstract要約: 時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
- 参考スコア(独自算出の注目度): 14.923321325749196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection (TAD) is an essential and challenging topic in
video understanding, aiming to localize the temporal segments containing human
action instances and predict the action categories. The previous works greatly
rely upon dense candidates either by designing varying anchors or enumerating
all the combinations of boundaries on video sequences; therefore, they are
related to complicated pipelines and sensitive hand-crafted designs. Recently,
with the resurgence of Transformer, query-based methods have tended to become
the rising solutions for their simplicity and flexibility. However, there still
exists a performance gap between query-based methods and well-established
methods. In this paper, we identify the main challenge lies in the large
variants of action duration and the ambiguous boundaries for short action
instances; nevertheless, quadratic-computational global attention prevents
query-based methods to build multi-scale feature maps. Towards high-quality
temporal action detection, we introduce Sparse Proposals to interact with the
hierarchical features. In our method, named SP-TAD, each proposal attends to a
local segment feature in the temporal feature pyramid. The local interaction
enables utilization of high-resolution features to preserve action instances
details. Extensive experiments demonstrate the effectiveness of our method,
especially under high tIoU thresholds. E.g., we achieve the state-of-the-art
performance on THUMOS14 (45.7% on mAP@0.6, 33.4% on mAP@0.7 and 53.5% on
mAP@Avg) and competitive results on ActivityNet-1.3 (32.99% on mAP@Avg). Code
will be made available at https://github.com/wjn922/SP-TAD.
- Abstract(参考訳): 時間的行動検出(TAD)はビデオ理解において不可欠で困難なトピックであり、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
以前の作品は、様々なアンカーを設計するか、ビデオシーケンス上の境界の組み合わせを全て列挙することで、密集した候補に大きく依存しており、複雑なパイプラインや繊細な手作りデザインに関係している。
最近のtransformerの復活により、クエリベースのメソッドは、そのシンプルさと柔軟性のための上昇するソリューションになりがちである。
しかし、クエリベースのメソッドと確立されたメソッドの間には、まだパフォーマンスのギャップがある。
本稿では,アクションの持続時間と短いアクションインスタンスのあいまいな境界が主な課題であることを示す。しかしながら,2次計算的グローバルアテンションは,クエリベースのマルチスケール特徴写像構築の手法を阻害する。
高品質な時間的行動検出に向けて,階層的特徴と相互作用するスパース提案を導入する。
提案手法sp-tadでは,各提案が時間的特徴ピラミッドの局所的特徴量に対応する。
ローカルインタラクションは、アクションインスタンスの詳細を保存するために高解像度機能の利用を可能にする。
特に高いtIoU閾値下では,本手法の有効性を示した。
例えば、THUMOS14の最先端パフォーマンス(mAP@0.6で45.7%、mAP@0.7で33.4%、mAP@Avgで53.5%)とActivityNet-1.3(mAP@Avgで32.99%)の競合結果を達成する。
コードはhttps://github.com/wjn922/sp-tadで入手できる。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Adaptive Perception Transformer for Temporal Action Localization [13.735402329482719]
本稿では適応知覚変換器(AdaPerFormer)と呼ばれる新しいエンドツーエンドモデルを提案する。
1つのブランチは、全ビデオシーケンスをモデル化し、グローバルな関連するコンテキストを集約するグローバルな認識の注意を気にする。
他のブランチは、フレーム内およびフレーム間の情報を集約するローカルな畳み込みシフトに集中する。
論文 参考訳(メタデータ) (2022-08-25T07:42:48Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Finding Action Tubes with a Sparse-to-Dense Framework [62.60742627484788]
本稿では,ビデオストリームからのアクションチューブ提案を1つのフォワードパスでスパース・トゥ・デンス方式で生成するフレームワークを提案する。
UCF101-24, JHMDB-21, UCFSportsベンチマークデータセット上で, 本モデルの有効性を評価する。
論文 参考訳(メタデータ) (2020-08-30T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。