論文の概要: DCAN: Improving Temporal Action Detection via Dual Context Aggregation
- arxiv url: http://arxiv.org/abs/2112.03612v1
- Date: Tue, 7 Dec 2021 10:14:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 21:15:51.914003
- Title: DCAN: Improving Temporal Action Detection via Dual Context Aggregation
- Title(参考訳): DCAN:デュアルコンテキストアグリゲーションによる時間的行動検出の改善
- Authors: Guo Chen, Yin-Dong Zheng, Limin Wang, Tong Lu
- Abstract要約: 時間的アクション検出は、ビデオ内のアクションの境界を見つけることを目的としている。
境界マッチングに基づく現在の手法は、全ての可能な境界マッチングを列挙し、計算して提案を生成する。
本稿では,境界レベルと提案レベルという2つのレベルのコンテキストを集約するために,Dual Context Aggregation Network (DCAN)を提案する。
- 参考スコア(独自算出の注目度): 29.46851768470807
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action detection aims to locate the boundaries of action in the
video. The current method based on boundary matching enumerates and calculates
all possible boundary matchings to generate proposals. However, these methods
neglect the long-range context aggregation in boundary prediction. At the same
time, due to the similar semantics of adjacent matchings, local semantic
aggregation of densely-generated matchings cannot improve semantic richness and
discrimination. In this paper, we propose the end-to-end proposal generation
method named Dual Context Aggregation Network (DCAN) to aggregate context on
two levels, namely, boundary level and proposal level, for generating
high-quality action proposals, thereby improving the performance of temporal
action detection. Specifically, we design the Multi-Path Temporal Context
Aggregation (MTCA) to achieve smooth context aggregation on boundary level and
precise evaluation of boundaries. For matching evaluation, Coarse-to-fine
Matching (CFM) is designed to aggregate context on the proposal level and
refine the matching map from coarse to fine. We conduct extensive experiments
on ActivityNet v1.3 and THUMOS-14. DCAN obtains an average mAP of 35.39% on
ActivityNet v1.3 and reaches mAP 54.14% at IoU@0.5 on THUMOS-14, which
demonstrates DCAN can generate high-quality proposals and achieve
state-of-the-art performance. We release the code at
https://github.com/cg1177/DCAN.
- Abstract(参考訳): 時間的アクション検出は、ビデオ内のアクションの境界を見つけることを目的としている。
境界マッチングに基づく現在の手法は、全ての可能な境界マッチングを列挙し、計算して提案を生成する。
しかし,これらの手法は境界予測における長距離コンテキストアグリゲーションを無視する。
同時に、隣接するマッチングの類似したセマンティックスにより、密に生成されたマッチングの局所的なセマンティックアグリゲーションは、セマンティックリッチ性と識別を改善することができない。
本稿では,高品質な行動提案を生成するために,境界レベルと提案レベルという2つのレベルでコンテキストを集約し,時間的行動検出の性能を向上させるために,dcanと呼ばれるエンド・ツー・エンドの提案生成手法を提案する。
具体的には,Multi-Path Temporal Context Aggregation (MTCA) を設計し,境界レベルのスムーズなコンテキストアグリゲーションと境界の正確な評価を実現する。
マッチング評価のために, 提案レベルでコンテキストを集約し, 粒度から細度までのマッチングマップを洗練するために, 粒度から粒度へのマッチング (cfm) が設計されている。
我々は activitynet v1.3 と thumos-14 に関する広範な実験を行う。
DCANはActivityNet v1.3で平均35.39%のmAPを取得し、THUMOS-14でIoU@0.5でmAP 54.14%に達した。
コードはhttps://github.com/cg1177/dcanでリリースします。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - Context-aware Proposal Network for Temporal Action Detection [47.72048484299649]
本報告では,CVPR-2022 AcitivityNet Challengeにおける時間的行動検出タスクの初当選ソリューションについて述べる。
このタスクは、アクションインスタンスの時間的境界を、長い未トリミングビデオの特定のクラスにローカライズすることを目的としている。
生成した提案にはリッチな文脈情報が含まれており、検出信頼度予測の恩恵を受ける可能性があると論じる。
論文 参考訳(メタデータ) (2022-06-18T01:43:43Z) - Estimation of Reliable Proposal Quality for Temporal Action Detection [71.5989469643732]
提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
論文 参考訳(メタデータ) (2022-04-25T14:33:49Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。