論文の概要: Proposal-based Temporal Action Localization with Point-level Supervision
- arxiv url: http://arxiv.org/abs/2310.05511v1
- Date: Mon, 9 Oct 2023 08:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 06:49:00.182516
- Title: Proposal-based Temporal Action Localization with Point-level Supervision
- Title(参考訳): ポイントレベル監督による時空間行動定位の提案
- Authors: Yuan Yin, Yifei Huang, Ryosuke Furuta, Yoichi Sato
- Abstract要約: ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
- 参考スコア(独自算出の注目度): 29.98225940694062
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Point-level supervised temporal action localization (PTAL) aims at
recognizing and localizing actions in untrimmed videos where only a single
point (frame) within every action instance is annotated in training data.
Without temporal annotations, most previous works adopt the multiple instance
learning (MIL) framework, where the input video is segmented into
non-overlapped short snippets, and action classification is performed
independently on every short snippet. We argue that the MIL framework is
suboptimal for PTAL because it operates on separated short snippets that
contain limited temporal information. Therefore, the classifier only focuses on
several easy-to-distinguish snippets instead of discovering the whole action
instance without missing any relevant snippets. To alleviate this problem, we
propose a novel method that localizes actions by generating and evaluating
action proposals of flexible duration that involve more comprehensive temporal
information. Moreover, we introduce an efficient clustering algorithm to
efficiently generate dense pseudo labels that provide stronger supervision, and
a fine-grained contrastive loss to further refine the quality of pseudo labels.
Experiments show that our proposed method achieves competitive or superior
performance to the state-of-the-art methods and some fully-supervised methods
on four benchmarks: ActivityNet 1.3, THUMOS 14, GTEA, and BEOID datasets.
- Abstract(参考訳): point-level supervised temporal action localization (ptal)は、各アクションインスタンス内の1つのポイント(フレーム)のみがトレーニングデータにアノテートされる未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
時間的アノテーションがなければ、ほとんどの以前の作業ではMIL(Multiple Case Learning)フレームワークを採用しており、入力ビデオはオーバーラップされていないショートスニペットに分割され、アクション分類はショートスニペット毎に独立して実行される。
MILフレームワークは、時間的情報に制限のある分断された短いスニペットで動作するため、PTALに最適であると主張する。
そのため、分類器は、関連するスニペットを欠くことなく、アクションインスタンス全体を発見する代わりに、識別し易いスニペットにのみフォーカスする。
この問題を軽減するために,より包括的な時間情報を含むフレキシブル期間の行動提案を生成し,評価することにより,行動の局所化を図る手法を提案する。
さらに,より密集した擬似ラベルを効率的に生成する効率的なクラスタリングアルゴリズムを導入し,より強い監督と細粒度のコントラスト損失を生かして,擬似ラベルの品質をさらに向上させる。
実験の結果,提案手法は最先端の手法と,ActivityNet 1.3, THUMOS 14, GTEA, BEOIDデータセットの4つのベンチマーク上での完全教師付き手法とを比較検討した。
関連論文リスト
- POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Towards High-Quality Temporal Action Detection with Sparse Proposals [14.923321325749196]
時間的アクション検出は、人間のアクションインスタンスを含む時間的セグメントをローカライズし、アクションカテゴリを予測することを目的としている。
階層的特徴と相互作用するためにスパース提案を導入する。
実験により,高いtIoU閾値下での本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-09-18T06:15:19Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - A Hybrid Attention Mechanism for Weakly-Supervised Temporal Action
Localization [12.353250130848044]
本稿では,時間的ソフト,半ソフト,ハードアテンションを含むハイブリッドアテンション機構を備えたHAM-Netという新しいフレームワークを提案する。
提案手法は,THUMOS14データセット上のIoUしきい値0.5において,少なくとも2.2%のmAPで最新の最先端手法より優れている。
論文 参考訳(メタデータ) (2021-01-03T03:08:18Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。