論文の概要: SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal
Action Detection
- arxiv url: http://arxiv.org/abs/2106.15258v1
- Date: Tue, 29 Jun 2021 11:29:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:26:01.961417
- Title: SRF-Net: Selective Receptive Field Network for Anchor-Free Temporal
Action Detection
- Title(参考訳): SRF-Net:アンカーレス動作検出のための選択的受容場ネットワーク
- Authors: Ranyu Ning, Can Zhang, Yuexian Zou
- Abstract要約: 時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。
現在の主流のワンステージTADは、事前に定義されたアンカーに依存するアクション提案をローカライズし、分類する。
SRF-Net(Selective Receptive Field Network)と呼ばれる新しいTADモデルを開発した。
- 参考スコア(独自算出の注目度): 32.159784061961886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action detection (TAD) is a challenging task which aims to
temporally localize and recognize the human action in untrimmed videos. Current
mainstream one-stage TAD approaches localize and classify action proposals
relying on pre-defined anchors, where the location and scale for action
instances are set by designers. Obviously, such an anchor-based TAD method
limits its generalization capability and will lead to performance degradation
when videos contain rich action variation. In this study, we explore to remove
the requirement of pre-defined anchors for TAD methods. A novel TAD model
termed as Selective Receptive Field Network (SRF-Net) is developed, in which
the location offsets and classification scores at each temporal location can be
directly estimated in the feature map and SRF-Net is trained in an end-to-end
manner. Innovatively, a building block called Selective Receptive Field
Convolution (SRFC) is dedicatedly designed which is able to adaptively adjust
its receptive field size according to multiple scales of input information at
each temporal location in the feature map. Extensive experiments are conducted
on the THUMOS14 dataset, and superior results are reported comparing to
state-of-the-art TAD approaches.
- Abstract(参考訳): 時間的行動検出(TAD: Temporal Action Detection)は、ビデオ中の人間の行動の時間的局所化と認識を目的とした課題である。
現在の主流のワンステージTADは、事前に定義されたアンカーに依存したアクション提案のローカライズと分類にアプローチしている。
このようなアンカーベースのTAD法は、その一般化能力を制限し、ビデオがリッチなアクション変動を含む場合、パフォーマンスが低下する。
本研究では,tad法における事前定義されたアンカーの必要性を解消する。
特徴マップにおいて、各時間的位置における位置オフセットと分類スコアを直接推定し、エンドツーエンドでsrf-netを訓練可能な、選択的受容場ネットワーク(srf-net)と呼ばれる新しいtadモデルを開発した。
革新的に、SRFC(Selective Receptive Field Convolution)と呼ばれるビルディングブロックは、特徴写像の各時間的位置における入力情報の複数のスケールに応じて、その受信フィールドサイズを適応的に調整できるように設計されている。
THUMOS14データセットで大規模な実験を行い、最先端のTADアプローチと比較して優れた結果を報告した。
関連論文リスト
- Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Semi-Supervised Temporal Action Detection with Proposal-Free Masking [134.26292288193298]
PropOsal-free Temporal mask (SPOT) に基づく新しい半教師付き時間行動検出モデルを提案する。
SPOTは最先端の代替品よりも優れている。
論文 参考訳(メタデータ) (2022-07-14T16:58:47Z) - Transferable Knowledge-Based Multi-Granularity Aggregation Network for
Temporal Action Localization: Submission to ActivityNet Challenge 2021 [33.840281113206444]
本報告では,2021 HACS 時空間行動ローカライゼーションチャレンジの提出に使用したソリューションの概要について述べる。
我々は、TCANet(Temporal Context Aggregation Network)を用いて、高品質なアクション提案を生成する。
また、トリミングされたビデオから未トリミングされたビデオに知識を移すための追加モジュールも採用しています。
提案手法は, 教師付きおよび弱教師付き時間的行動局所化トラックを用いて, 39.91 と 29.78 の平均 mAP をそれぞれ達成する。
論文 参考訳(メタデータ) (2021-07-27T06:18:21Z) - Boundary-sensitive Pre-training for Temporal Localization in Videos [124.40788524169668]
本稿では,時間的局所化のためのモデル事前学習について,新しい境界感性プレテキスト(BSP)タスクを導入して検討する。
合成された境界により、BSPは境界型を分類することで簡単に実行できる。
大規模な実験により、提案したBSPは既存の行動分類に基づく事前学習法よりも優れ、相補的であることが示された。
論文 参考訳(メタデータ) (2020-11-21T17:46:24Z) - Unsupervised Domain Adaptation for Spatio-Temporal Action Localization [69.12982544509427]
S時間動作の局所化はコンピュータビジョンにおいて重要な問題である。
本稿では、エンドツーエンドの教師なしドメイン適応アルゴリズムを提案する。
空間的特徴と時間的特徴を別々にあるいは共同的に適応した場合に,顕著な性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2020-10-19T04:25:10Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。