論文の概要: Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2103.13137v1
- Date: Wed, 24 Mar 2021 12:28:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 16:38:25.997115
- Title: Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization
- Title(参考訳): アンカーフリー時間行動定位のための学習サルエント境界特徴
- Authors: Chuming Lin, Chengming Xu, Donghao Luo, Yabiao Wang, Ying Tai,
Chengjie Wang, Jilin Li, Feiyue Huang, Yanwei Fu
- Abstract要約: 時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
- 参考スコア(独自算出の注目度): 81.55295042558409
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal action localization is an important yet challenging task in video
understanding. Typically, such a task aims at inferring both the action
category and localization of the start and end frame for each action instance
in a long, untrimmed video.While most current models achieve good results by
using pre-defined anchors and numerous actionness, such methods could be
bothered with both large number of outputs and heavy tuning of locations and
sizes corresponding to different anchors. Instead, anchor-free methods is
lighter, getting rid of redundant hyper-parameters, but gains few attention. In
this paper, we propose the first purely anchor-free temporal localization
method, which is both efficient and effective. Our model includes (i) an
end-to-end trainable basic predictor, (ii) a saliency-based refinement module
to gather more valuable boundary features for each proposal with a novel
boundary pooling, and (iii) several consistency constraints to make sure our
model can find the accurate boundary given arbitrary proposals. Extensive
experiments show that our method beats all anchor-based and actionness-guided
methods with a remarkable margin on THUMOS14, achieving state-of-the-art
results, and comparable ones on ActivityNet v1.3. Code is available at
https://github.com/TencentYoutuResearch/ActionDetection-AFSD.
- Abstract(参考訳): 時間的行動のローカライゼーションはビデオ理解において重要な課題である。
通常、このようなタスクは、アクションインスタンスごとのアクションカテゴリと開始フレームのローカライズの両方を、長い、トリミングされていないビデオで推定することを目的としており、現在のほとんどのモデルでは、事前定義されたアンカーと多数のアクションネスを用いて良い結果を得るが、そのような方法は、多数の出力と異なるアンカーに対応する位置とサイズの重み調整の両方で悩まされる可能性がある。
代わりにアンカーフリーメソッドはより軽量であり、冗長なハイパーパラメータを取り除くが、ほとんど注目されない。
本稿では, 効率と有効性を両立する, 完全アンカーフリーの時間的局所化法を提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)新たなバウンダリプールによる各提案のより価値のあるバウンダリ機能を収集するサリエンシベースのリファインメントモジュール,(iii)モデルが任意の提案で与えられた正確なバウンダリを見出すためのいくつかの一貫性制約が含まれている。
大規模な実験により,我々の手法は,THUMOS14に顕著なマージンを持つアンカーベースおよびアクションネス誘導手法をすべて打ち負かし,最先端の結果とActivityNet v1.3に匹敵する結果を得た。
コードはhttps://github.com/TencentYoutuResearch/ActionDetection-AFSDで入手できる。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - EAN: Event Adaptive Network for Enhanced Action Recognition [66.81780707955852]
本稿では,映像コンテンツの動的性質を調査するための統合された行動認識フレームワークを提案する。
まず、局所的な手がかりを抽出する際に、動的スケールの時空間カーネルを生成し、多様な事象を適応的に適合させる。
第2に、これらのキューを正確にグローバルなビデオ表現に集約するために、トランスフォーマーによって選択されたいくつかの前景オブジェクト間のインタラクションのみをマイニングすることを提案する。
論文 参考訳(メタデータ) (2021-07-22T15:57:18Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Revisiting Anchor Mechanisms for Temporal Action Localization [126.96340233561418]
本稿では,時間的視点による動作のローカライゼーションを支援するアンカーフリーな動作ローカライゼーションモジュールを提案する。
提案するアンカーフリーモジュールと従来のアンカーベースモジュールを組み合わせることで,A2Netと呼ばれる新しいアクションローカライゼーションフレームワークを提案する。
アンカーフリーモジュールとアンカーベースモジュールの協調はTHUMOS14の最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-08-22T13:39:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。