論文の概要: Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses
- arxiv url: http://arxiv.org/abs/2012.08236v1
- Date: Tue, 15 Dec 2020 12:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 05:23:08.834000
- Title: Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses
- Title(参考訳): point-level temporal action localization: bridging full-supervised proposals to weakly-supervised loss
- Authors: Chen Ju, Peisen Zhao, Ya Zhang, Yanfeng Wang, Qi Tian
- Abstract要約: point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
- 参考スコア(独自算出の注目度): 84.2964408497058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Point-Level temporal action localization (PTAL) aims to localize actions in
untrimmed videos with only one timestamp annotation for each action instance.
Existing methods adopt the frame-level prediction paradigm to learn from the
sparse single-frame labels. However, such a framework inevitably suffers from a
large solution space. This paper attempts to explore the proposal-based
prediction paradigm for point-level annotations, which has the advantage of
more constrained solution space and consistent predictions among neighboring
frames. The point-level annotations are first used as the keypoint supervision
to train a keypoint detector. At the location prediction stage, a simple but
effective mapper module, which enables back-propagation of training errors, is
then introduced to bridge the fully-supervised framework with weak supervision.
To our best of knowledge, this is the first work to leverage the
fully-supervised paradigm for the point-level setting. Experiments on THUMOS14,
BEOID, and GTEA verify the effectiveness of our proposed method both
quantitatively and qualitatively, and demonstrate that our method outperforms
state-of-the-art methods.
- Abstract(参考訳): ポイントレベル時間的アクションローカライゼーション(PTAL)は、アクションインスタンスごとに1つのタイムスタンプアノテーションで、未トリミングビデオ中のアクションをローカライズすることを目的としている。
既存の方法はフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
しかし、そのようなフレームワークは必然的に大きなソリューション空間に苦しむ。
本稿では,より制約のある解空間と隣り合うフレーム間の一貫した予測の利点を生かした,ポイントレベルのアノテーションの提案に基づく予測パラダイムの検討を試みる。
ポイントレベルのアノテーションは、まずキーポイントディテクターをトレーニングするためのキーポイント監視として使用される。
位置予測の段階では、トレーニングエラーのバックプロパゲーションを可能にするシンプルで効果的なマッパーモジュールを導入し、完全な教師付きフレームワークを弱い監督で橋渡しする。
私たちの知る限りでは、ポイントレベルの設定に完全に教師されたパラダイムを活用するのはこれが初めてです。
THUMOS14,BEOID,GTEAの実験により,提案手法の有効性を定量的かつ定性的に検証し,本手法が最先端手法よりも優れていることを示す。
関連論文リスト
- POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization [26.506893363676678]
本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-10-20T15:28:06Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Point-Teaching: Weakly Semi-Supervised Object Detection with Point
Annotations [81.02347863372364]
本稿では,弱い半教師付きオブジェクト検出フレームワークであるPoint-Teachingを提案する。
具体的には,ポイントアノテート画像の擬似ラベルを生成するためのハンガリーの点マッチング手法を提案する。
そこで本研究では,不整合点の影響を低減するため,単純なyet- effective data augmentation(ポイント誘導コピーペースト)を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:04:38Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - Panoster: End-to-end Panoptic Segmentation of LiDAR Point Clouds [81.12016263972298]
我々は,LiDAR点雲のための提案不要なパノプティックセグメンテーション手法であるパノスターを提案する。
従来のアプローチとは異なり、Panosterでは、インスタンスを識別するための学習ベースのクラスタリングソリューションを組み込んだ、シンプルなフレームワークを提案している。
推論時に、これはクラスに依存しないセグメンテーションとして機能し、パノスターは高速で、精度の点で先行メソッドよりも優れている。
論文 参考訳(メタデータ) (2020-10-28T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。