論文の概要: Prior-enhanced Temporal Action Localization using Subject-aware Spatial
Attention
- arxiv url: http://arxiv.org/abs/2211.05299v1
- Date: Thu, 10 Nov 2022 02:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 15:24:34.671002
- Title: Prior-enhanced Temporal Action Localization using Subject-aware Spatial
Attention
- Title(参考訳): 主観的空間的注意を用いた事前時間的行動定位
- Authors: Yifan Liu and Youbao Tang and Ning Zhang and Ruei-Sung Lin and Haoqian
Wang
- Abstract要約: 時間的アクションローカライゼーション(TAL)は、境界を検出し、長いビデオで各アクションインスタンスのクラスを特定することを目的としている。
現在のアプローチでは、ビデオフレームを均質に扱い、バックグラウンドやキーオブジェクトに過度な注意を与える傾向がある。
本稿では,RGB入力のみを取り込み,動作対象を先行として組み込むPETALを提案する。
- 参考スコア(独自算出の注目度): 26.74864808534721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal action localization (TAL) aims to detect the boundary and identify
the class of each action instance in a long untrimmed video. Current approaches
treat video frames homogeneously, and tend to give background and key objects
excessive attention. This limits their sensitivity to localize action
boundaries. To this end, we propose a prior-enhanced temporal action
localization method (PETAL), which only takes in RGB input and incorporates
action subjects as priors. This proposal leverages action subjects' information
with a plug-and-play subject-aware spatial attention module (SA-SAM) to
generate an aggregated and subject-prioritized representation. Experimental
results on THUMOS-14 and ActivityNet-1.3 datasets demonstrate that the proposed
PETAL achieves competitive performance using only RGB features, e.g., boosting
mAP by 2.41% or 0.25% over the state-of-the-art approach that uses RGB features
or with additional optical flow features on the THUMOS-14 dataset.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)は、境界を検出し、長いビデオで各アクションインスタンスのクラスを特定することを目的としている。
現在のアプローチでは、ビデオフレームを均質に扱い、背景や重要なオブジェクトに過度に注意を払う傾向がある。
これにより、アクション境界をローカライズする感度が制限される。
そこで本研究では,RGB入力のみを入力とし,動作対象を先行として組み込むPETAL(Presideed Enhanced temporal Action Localization Method)を提案する。
本提案では,行動対象の情報をプラグアンドプレイ型空間アテンションモジュール (SA-SAM) で活用し,集合的かつ主観的優先表現を生成する。
THUMOS-14とActivityNet-1.3データセットの実験結果は、提案されたPETALが、RGB機能を使用する最先端のアプローチやTHUMOS-14データセットのさらなる光学フロー機能に対して、mAPを2.41%または0.25%向上させるなど、RGB機能のみを使用して、競合性能を達成することを示した。
関連論文リスト
- Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - Adaptive Multi-source Predictor for Zero-shot Video Object Segmentation [68.56443382421878]
ゼロショットビデオオブジェクトセグメンテーション(ZVOS)のための新しい適応型マルチソース予測器を提案する。
静的オブジェクト予測器では、RGBソースは、同時に深度および静注ソースに変換される。
実験の結果,提案モデルは3つのZVOSベンチマークにおいて最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-18T10:19:29Z) - Temporal Action Localization with Multi-temporal Scales [54.69057924183867]
マルチ時間スケールの特徴空間における行動を予測することを提案する。
具体的には、異なるスケールの洗練された特徴ピラミッドを使用して、高レベルのスケールから低レベルのスケールにセマンティクスを渡す。
提案手法は, それぞれ12.6%, 17.4%, 2.2%の改善を達成できる。
論文 参考訳(メタデータ) (2022-08-16T01:48:23Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。