論文の概要: Estimation of Reliable Proposal Quality for Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2204.11695v1
- Date: Mon, 25 Apr 2022 14:33:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 15:00:41.341192
- Title: Estimation of Reliable Proposal Quality for Temporal Action Detection
- Title(参考訳): 時間的動作検出のための信頼性の高い提案品質の推定
- Authors: Junshan Hu, Chaoxu guo, Liansheng Zhuang, Biao Wang, Tiezheng Ge,
Yuning Jiang, Houqiang Li
- Abstract要約: 提案手法では,時間的視点と地域的視点を同時に把握し,信頼性の高い提案品質を取得することによって2つの課題を整合させる手法を提案する。
バウンダリ評価モジュール (BEM) は, 境界品質を推定するために, 局所的な外観と動きの進化に焦点を当てた設計である。
地域の観点からは,提案する特徴表現に対して,新しい効率的なサンプリング手法を用いた領域評価モジュール(REM)を導入する。
- 参考スコア(独自算出の注目度): 71.5989469643732
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal action detection (TAD) aims to locate and recognize the actions in
an untrimmed video. Anchor-free methods have made remarkable progress which
mainly formulate TAD into two tasks: classification and localization using two
separate branches. This paper reveals the temporal misalignment between the two
tasks hindering further progress. To address this, we propose a new method that
gives insights into moment and region perspectives simultaneously to align the
two tasks by acquiring reliable proposal quality. For the moment perspective,
Boundary Evaluate Module (BEM) is designed which focuses on local appearance
and motion evolvement to estimate boundary quality and adopts a multi-scale
manner to deal with varied action durations. For the region perspective, we
introduce Region Evaluate Module (REM) which uses a new and efficient sampling
method for proposal feature representation containing more contextual
information compared with point feature to refine category score and proposal
boundary. The proposed Boundary Evaluate Module and Region Evaluate Module
(BREM) are generic, and they can be easily integrated with other anchor-free
TAD methods to achieve superior performance. In our experiments, BREM is
combined with two different frameworks and improves the performance on THUMOS14
by 3.6$\%$ and 1.0$\%$ respectively, reaching a new state-of-the-art (63.6$\%$
average $m$AP). Meanwhile, a competitive result of 36.2\% average $m$AP is
achieved on ActivityNet-1.3 with the consistent improvement of BREM.
- Abstract(参考訳): 時間的行動検出(tad:temporal action detection)は、未撮影の動画における行動の特定と認識を目的としている。
アンカーフリーな手法は、主にTADを2つの異なる分岐を用いた分類と局所化の2つのタスクに分類する。
本稿では,2つのタスク間の時間的不整合がさらなる進歩を妨げることを示す。
そこで本研究では,2つの課題を一致させるため,モーメントと領域の視点を同時に把握し,信頼性の高い提案品質を得る新しい手法を提案する。
BEM(Bundary Evaluate Module)は、境界品質を推定するために局所的な外観と動きの進化に焦点をあてて設計され、様々な動作期間を扱うためのマルチスケールな方法を採用している。
地域的観点では,領域評価モジュール(rem)を導入し,より文脈的情報を含む提案特徴表現に対して,カテゴリスコアと提案境界を洗練するために,より効率的なサンプリング手法を提案する。
提案した境界評価モジュールと領域評価モジュール(BREM)は汎用的であり,他のアンカーフリーTAD手法と容易に統合して優れた性能を実現することができる。
実験では、BREMと2つの異なるフレームワークを組み合わせることで、THUMOS14のパフォーマンスをそれぞれ3.6$\%$と1.0$\%$で改善し、新しい最先端(63.6$\%$ average $m$AP)に達した。
一方、平均$m$APの36.2\%の競争結果は、BREMの一貫性のある改善によりActivityNet-1.3で達成される。
関連論文リスト
- Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Faster Learning of Temporal Action Proposal via Sparse Multilevel
Boundary Generator [9.038216757761955]
ビデオにおける時間的行動のローカライゼーションは、コンピュータビジョンの分野で大きな課題を呈している。
本稿では,境界分類と動作完全性回帰を用いた境界感性手法を改良したSMBG(Sparse Multilevel boundary Generator)を提案する。
提案手法は,ActivityNet-1.3 と THUMOS14 の2つのベンチマークで評価され,より高速な推論速度 (2.47xBSN++, 2.12xDBG) で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-06T14:26:56Z) - DCAN: Improving Temporal Action Detection via Dual Context Aggregation [29.46851768470807]
時間的アクション検出は、ビデオ内のアクションの境界を見つけることを目的としている。
境界マッチングに基づく現在の手法は、全ての可能な境界マッチングを列挙し、計算して提案を生成する。
本稿では,境界レベルと提案レベルという2つのレベルのコンテキストを集約するために,Dual Context Aggregation Network (DCAN)を提案する。
論文 参考訳(メタデータ) (2021-12-07T10:14:26Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Adaptive Mutual Supervision for Weakly-Supervised Temporal Action
Localization [92.96802448718388]
時間的行動ローカライゼーションのための適応的相互監視フレームワーク(AMS)を導入する。
提案手法は最先端手法を著しく上回っている。
論文 参考訳(メタデータ) (2021-04-06T08:31:10Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。