論文の概要: POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2310.13585v2
- Date: Wed, 5 Jun 2024 18:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:29:50.126538
- Title: POTLoc: Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization
- Title(参考訳): POTLOC:Pseudo-Label Oriented Transformer for Point-Supervised Temporal Action Localization
- Authors: Elahe Vahdani, Yingli Tian,
- Abstract要約: 本稿ではPseudo-label Oriented Transformerを提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
THUMOS'14とActivityNet-v1.2データセットでは、最先端のポイント管理手法よりも優れています。
- 参考スコア(独自算出の注目度): 26.506893363676678
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper tackles the challenge of point-supervised temporal action detection, wherein only a single frame is annotated for each action instance in the training set. Most of the current methods, hindered by the sparse nature of annotated points, struggle to effectively represent the continuous structure of actions or the inherent temporal and semantic dependencies within action instances. Consequently, these methods frequently learn merely the most distinctive segments of actions, leading to the creation of incomplete action proposals. This paper proposes POTLoc, a Pseudo-label Oriented Transformer for weakly-supervised Action Localization utilizing only point-level annotation. POTLoc is designed to identify and track continuous action structures via a self-training strategy. The base model begins by generating action proposals solely with point-level supervision. These proposals undergo refinement and regression to enhance the precision of the estimated action boundaries, which subsequently results in the production of `pseudo-labels' to serve as supplementary supervisory signals. The architecture of the model integrates a transformer with a temporal feature pyramid to capture video snippet dependencies and model actions of varying duration. The pseudo-labels, providing information about the coarse locations and boundaries of actions, assist in guiding the transformer for enhanced learning of action dynamics. POTLoc outperforms the state-of-the-art point-supervised methods on THUMOS'14 and ActivityNet-v1.2 datasets.
- Abstract(参考訳): 本稿では,1フレームのみをトレーニングセットの各アクションインスタンスにアノテートする点教師付き時間的動作検出の課題に対処する。
現在のメソッドのほとんどは、アノテーション付きポイントのスパースな性質によって妨げられ、アクションの継続的な構造やアクションインスタンス内の固有の時間的およびセマンティックな依存関係を効果的に表現するのに苦労しています。
その結果、これらの手法は単に最も独特なアクションセグメントだけを学習し、不完全なアクションプロポーザルの作成につながった。
本稿では,Pseudo-label Oriented Transformer(POTLOC)を提案する。
POTLocは、自己学習戦略を通じて、継続的なアクション構造を特定し、追跡するように設計されている。
ベースモデルは、ポイントレベルの監督のみでアクションプロポーザルを生成することから始まります。
これらの提案は、推定された行動境界の精度を高めるために、改良と回帰を行い、その後、補助的な監視信号として「擬似ラベル」を生産する結果となった。
モデルのアーキテクチャは、トランスフォーマーと時間的特徴ピラミッドを統合して、ビデオスニペットの依存関係と様々な期間のモデルアクションをキャプチャする。
粗い位置と行動の境界に関する情報を提供する擬似ラベルは、行動力学の学習を促進するためのトランスフォーマーの指導を支援する。
POTLOCはTHUMOS'14とActivityNet-v1.2データセットの最先端のポイント管理手法より優れている。
関連論文リスト
- STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - ADM-Loc: Actionness Distribution Modeling for Point-supervised Temporal
Action Localization [31.314383098734922]
本稿では,1つのアクションインスタンスにアノテートされた1フレームのみをトレーニングセットにアノテートする点教師付き時間的行動検出の課題に対処する。
ADM-Loc(ADM-Loc)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-27T15:24:54Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Sub-action Prototype Learning for Point-level Weakly-supervised Temporal
Action Localization [11.777205793663647]
PWTAL(Point-level weak-supervised temporal action Localization)は、アクションインスタンスごとに単一のタイムスタンプアノテーションでアクションをローカライズすることを目的としている。
既存の手法では、ラベルの空間性を緩和するために密度の高い擬似ラベルをマイニングする傾向があるが、潜在的サブアクションの時間構造を見落とし、性能が劣る。
サブアクションプロトタイプクラスタリング(SPC)と順序付きプロトタイプアライメント(OPA)を組み合わせた新しいサブアクションプロトタイプ学習フレームワーク(SPL-Loc)を提案する。
論文 参考訳(メタデータ) (2023-09-16T17:57:40Z) - ASM-Loc: Action-aware Segment Modeling for Weakly-Supervised Temporal
Action Localization [36.90693762365237]
微弱に監督された時間的アクションローカライゼーションは、トレーニングのためにビデオレベルのアクションラベルのみを与えられた未トリミングビデオ中のアクションセグメントを認識し、ローカライズすることを目的としている。
我々は,標準のMIL法を超越した,明示的でアクション対応のセグメントモデリングを可能にする WTAL フレームワークである System を提案する。
本フレームワークでは, 短時間動作の寄与を補う動的セグメントサンプリング, (ii) 動作のダイナミクスをモデル化し, 時間的依存性を捉えるためのセグメント間注意, (iii) 動作境界予測を改善するための擬似インスタンスレベルの監視の3つの要素を包含する。
論文 参考訳(メタデータ) (2022-03-29T01:59:26Z) - Transformers in Action:Weakly Supervised Action Segmentation [81.18941007536468]
等価なRNNモデルに対して, 動作アライメント精度を向上させるためにトランスフォーマーを適用する方法を示す。
また、推論時により高速に書き起こしを選択するための補足的な書き起こし埋め込み手法を提案する。
提案手法をベンチマークデータセット全体にわたって評価し,トランスフォーマーの適用性をよりよく理解する。
論文 参考訳(メタデータ) (2022-01-14T21:15:58Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。