論文の概要: Temporal Context Aggregation Network for Temporal Action Proposal
Refinement
- arxiv url: http://arxiv.org/abs/2103.13141v1
- Date: Wed, 24 Mar 2021 12:34:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 13:57:41.428757
- Title: Temporal Context Aggregation Network for Temporal Action Proposal
Refinement
- Title(参考訳): 時間的行動提案リファインメントのための時間的文脈集約ネットワーク
- Authors: Zhiwu Qing, Haisheng Su, Weihao Gan, Dongliang Wang, Wei Wu, Xiang
Wang, Yu Qiao, Junjie Yan, Changxin Gao, Nong Sang
- Abstract要約: 時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
- 参考スコア(独自算出の注目度): 93.03730692520999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action proposal generation aims to estimate temporal intervals of
actions in untrimmed videos, which is a challenging yet important task in the
video understanding field. The proposals generated by current methods still
suffer from inaccurate temporal boundaries and inferior confidence used for
retrieval owing to the lack of efficient temporal modeling and effective
boundary context utilization. In this paper, we propose Temporal Context
Aggregation Network (TCANet) to generate high-quality action proposals through
"local and global" temporal context aggregation and complementary as well as
progressive boundary refinement. Specifically, we first design a Local-Global
Temporal Encoder (LGTE), which adopts the channel grouping strategy to
efficiently encode both "local and global" temporal inter-dependencies.
Furthermore, both the boundary and internal context of proposals are adopted
for frame-level and segment-level boundary regressions, respectively. Temporal
Boundary Regressor (TBR) is designed to combine these two regression
granularities in an end-to-end fashion, which achieves the precise boundaries
and reliable confidence of proposals through progressive refinement. Extensive
experiments are conducted on three challenging datasets: HACS,
ActivityNet-v1.3, and THUMOS-14, where TCANet can generate proposals with high
precision and recall. By combining with the existing action classifier, TCANet
can obtain remarkable temporal action detection performance compared with other
methods. Not surprisingly, the proposed TCANet won the 1$^{st}$ place in the
CVPR 2020 - HACS challenge leaderboard on temporal action localization task.
- Abstract(参考訳): 時間的行動提案生成は、ビデオ理解分野では難しいが重要な課題である未編集ビデオにおける時間的行動間隔を推定することを目的としている。
現在の手法による提案は、効率的な時間的モデリングと効果的な境界コンテキスト利用の欠如により、いまだに不正確な時間的境界と検索に使用される不確かさに悩まされている。
本稿では,「局所的かつ大域的」な時間的コンテキストアグリゲーションと相補的および漸進的境界改善による高品質な行動提案を生成するための時間的コンテキストアグリゲーションネットワーク(tcanet)を提案する。
具体的には、まずローカル・グローバル・テンポラル・エンコーダ(LGTE)を設計し、チャネルグループ化戦略を用いて「ローカル・グローバル」時間的相互依存を効率的に符号化する。
さらに,提案手法の境界と内部コンテキストをそれぞれフレームレベルとセグメントレベルの境界回帰に適用した。
時間境界回帰器(TBR)は、これら2つの回帰粒度をエンドツーエンドに組み合わせて設計されており、プロポーザルの正確な境界と信頼性を実現する。
大規模な実験は、HACS、ActivityNet-v1.3、THUMOS-14の3つの挑戦的なデータセットで実施されている。
既存の動作分類器と組み合わせることで、TCANetは他の方法と比較して顕著な時間的動作検出性能を得ることができる。
当然のことながら、提案されたTCANetはCVPR 2020の1$^{st}$で、時間的行動ローカライゼーションタスクにおけるHACSのリーダーボードに挑戦した。
関連論文リスト
- Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator [9.038216757761955]
ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
本稿では,境界分類と動作完全性回帰を用いた境界感性手法を改良したSMBG(Sparse Multilevel boundary Generator)を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:26:56Z) - DCAN: Improving Temporal Action Detection via Dual Context Aggregation [29.46851768470807]
時間的アクション検出は、ビデオ内のアクションの境界を見つけることを目的としている。
境界マッチングに基づく現在の手法は、全ての可能な境界マッチングを列挙し、計算して提案を生成する。
本稿では,境界レベルと提案レベルという2つのレベルのコンテキストを集約するために,Dual Context Aggregation Network (DCAN)を提案する。
論文 参考訳(メタデータ) (2021-12-07T10:14:26Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Relaxed Transformer Decoders for Direct Action Proposal Generation [30.516462193231888]
本稿では、直接アクション提案生成のためのシンプルでエンドツーエンドの学習可能なフレームワーク(RTD-Net)を提案する。
時間と空間の視覚的相違に対処するため、元の変換器検出フレームワーク(DETR)に対して3つの重要な改善を行った。
THUMOS14とActivityNet-1.3ベンチマークの実験では、RTD-Netの有効性が示されている。
論文 参考訳(メタデータ) (2021-02-03T06:29:28Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z) - BSN++: Complementary Boundary Regressor with Scale-Balanced Relation
Modeling for Temporal Action Proposal Generation [85.13713217986738]
我々は,時間的提案生成のための補完的境界回帰器と関係モデリングを利用する新しいフレームワークであるBSN++を提案する。
当然のことながら、提案されたBSN++は、時間的アクションローカライゼーションタスクに関するCVPR19 - ActivityNetのリーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2020-09-15T07:08:59Z) - Complementary Boundary Generator with Scale-Invariant Relation Modeling
for Temporal Action Localization: Submission to ActivityNet Challenge 2020 [66.4527310659592]
本報告では,ActivityNet Challenge 2020 Task 1への提出時に使用したソリューションの概要を紹介する。
時間的行動ローカライゼーションタスクを2段階(すなわち提案生成と分類)に分離し,提案の多様性を高める。
提案手法は,課題テストセット上での平均mAPを用いて,時間的動作の局所化タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-20T04:35:40Z) - Accurate Temporal Action Proposal Generation with Relation-Aware Pyramid
Network [29.7640925776191]
高精度な時間的行動提案を生成するための関係対応ピラミッドネットワーク(RapNet)を提案する。
RapNetでは、コンテキスト蒸留のための局所的な特徴間の双方向の長距離関係を利用するために、新しいリレーションアウェアモジュールが導入された。
論文 参考訳(メタデータ) (2020-03-09T13:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。