論文の概要: Dilation-Erosion for Single-Frame Supervised Temporal Action
Localization
- arxiv url: http://arxiv.org/abs/2212.06348v1
- Date: Tue, 13 Dec 2022 03:05:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:47:00.813676
- Title: Dilation-Erosion for Single-Frame Supervised Temporal Action
Localization
- Title(参考訳): 時間的行動局在を考慮した単一フレームのディレーションエロージョン
- Authors: Bin Wang, Yan Song, Fanming Wang, Yang Zhao, Xiangbo Shu, Yan Rui
- Abstract要約: 本稿では,Snippet分類モデルとDilation-Erosionモジュールについて述べる。
Dilation-Erosionモジュールは、擬似スニペットレベルの地上構造、硬い背景、明らかな背景をマイニングする。
THUMOS14とActivityNet 1.2の実験により,提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 28.945067347089825
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To balance the annotation labor and the granularity of supervision,
single-frame annotation has been introduced in temporal action localization. It
provides a rough temporal location for an action but implicitly overstates the
supervision from the annotated-frame during training, leading to the confusion
between actions and backgrounds, i.e., action incompleteness and background
false positives. To tackle the two challenges, in this work, we present the
Snippet Classification model and the Dilation-Erosion module. In the
Dilation-Erosion module, we expand the potential action segments with a loose
criterion to alleviate the problem of action incompleteness and then remove the
background from the potential action segments to alleviate the problem of
action incompleteness. Relying on the single-frame annotation and the output of
the snippet classification, the Dilation-Erosion module mines pseudo
snippet-level ground-truth, hard backgrounds and evident backgrounds, which in
turn further trains the Snippet Classification model. It forms a cyclic
dependency. Furthermore, we propose a new embedding loss to aggregate the
features of action instances with the same label and separate the features of
actions from backgrounds. Experiments on THUMOS14 and ActivityNet 1.2 validate
the effectiveness of the proposed method. Code has been made publicly available
(https://github.com/LingJun123/single-frame-TAL).
- Abstract(参考訳): アノテーションの労力と監督の粒度のバランスをとるために、時間的アクションローカライゼーションに単一フレームアノテーションが導入された。
行動のための粗い時間的場所を提供するが、トレーニング中に注釈付きフレームから監督を暗黙的に過剰に表現し、アクションとバックグラウンド、すなわちアクションの不完全性とバックグラウンドの偽陽性を混乱させる。
本研究では,2つの課題に対処するため,Snippet分類モデルとDilation-Erosionモジュールを提案する。
拡張エロージョンモジュールでは、潜在アクションセグメントをゆるい基準で拡張し、アクションの不完全性の問題を軽減するとともに、潜在的なアクションセグメントから背景を取り除き、アクション不完全性の問題を緩和する。
単一フレームのアノテーションとスニペット分類の出力に基づいて、Dilation-Erosionモジュールは擬似的なスニペットレベルの地上構造、ハードな背景、明確な背景をマイニングし、さらにスニペット分類モデルを訓練する。
環状の依存関係を形成する。
さらに,アクションインスタンスの特徴を同じラベルで集約し,アクションの特徴を背景から分離する新たな組込み損失を提案する。
THUMOS14とActivityNet 1.2の実験により,提案手法の有効性が検証された。
コードは公開されている(https://github.com/LingJun123/single-frame-TAL)。
関連論文リスト
- Weakly-Supervised Temporal Action Localization with Bidirectional
Semantic Consistency Constraint [83.36913240873236]
WTAL(Weakly Supervised Temporal Action Localization)は、ビデオの時間的境界を分類し、ローカライズすることを目的としている。
本研究では,双方向意味整合性制約 (Bi-SCC) という単純な手法を提案する。
実験結果から,THUMOS14とActivityNetの最先端手法よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2023-04-25T07:20:33Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Forcing the Whole Video as Background: An Adversarial Learning Strategy
for Weakly Temporal Action Localization [6.919243767837342]
疑似バックグラウンドスニペットのマイニングの限界を打破する逆学習戦略を提案する。
親和性スニペットの時間的関係を構築するために,新しい時間的拡張ネットワークが設計されている。
論文 参考訳(メタデータ) (2022-07-14T05:13:50Z) - SegTAD: Precise Temporal Action Detection via Semantic Segmentation [65.01826091117746]
意味的セグメンテーションの新しい視点で時間的行動検出のタスクを定式化する。
TADの1次元特性により、粗粒度検出アノテーションを細粒度セマンティックセマンティックアノテーションに無償で変換できる。
1Dセマンティックセグメンテーションネットワーク(1D-SSN)と提案検出ネットワーク(PDN)からなるエンドツーエンドフレームワークSegTADを提案する。
論文 参考訳(メタデータ) (2022-03-03T06:52:13Z) - Action Shuffling for Weakly Supervised Temporal Localization [22.43209053892713]
本稿では,行動の秩序感応性と位置感応性を解析する。
それらを自己拡張学習フレームワークに具体化し、弱教師付きアクションローカライゼーション性能を改善する。
論文 参考訳(メタデータ) (2021-05-10T09:05:58Z) - ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal
Action Localization [18.56421375743287]
ACM-Netと呼ばれるアクションコンテキストモデリングネットワークを提案する。
アクションインスタンス、コンテキスト、非アクションバックグラウンドの各時間ポイントの確率を同時に測定するために、3つの分岐アテンションモジュールを統合する。
提案手法は現在の最先端手法よりも優れており,完全教師付き手法で同等の性能を達成できる。
論文 参考訳(メタデータ) (2021-04-07T07:39:57Z) - Weakly Supervised Temporal Action Localization Through Learning Explicit
Subspaces for Action and Context [151.23835595907596]
ビデオレベルの監視のみの下で、アクションインスタンスの時間的開始と終了をローカライズする方法を学ぶ。
アクションとコンテキストそれぞれについて,2つの機能サブスペースを学習するフレームワークを提案する。
提案手法は3つのベンチマークで最先端のWS-TAL法より優れている。
論文 参考訳(メタデータ) (2021-03-30T08:26:53Z) - D2-Net: Weakly-Supervised Action Localization via Discriminative
Embeddings and Denoised Activations [172.05295776806773]
本研究では,D2-Net と呼ばれる時間的行動ローカリゼーションフレームワークを提案する。
私たちの主な貢献は、潜伏埋め込みの識別性を共同で向上する新しい損失製剤の導入です。
我々のD2-Netは、既存の2つのデータセットの手法と比較して好意的に機能する。
論文 参考訳(メタデータ) (2020-12-11T16:01:56Z) - Temporal Action Detection with Multi-level Supervision [116.55596693897388]
本稿では,ラベル付きデータとラベルなしデータを組み合わせたSemi-supervised Action Detection (SSAD)タスクを紹介する。
半教師付き分類タスクから直接適応したSSADベースラインの異なるタイプのエラーを解析する。
我々は,弱いラベル付きデータをSSADに組み込んで,3段階の監視レベルを持つOmni-supervised Action Detection (OSAD)を提案する。
論文 参考訳(メタデータ) (2020-11-24T04:45:17Z) - Weakly Supervised Temporal Action Localization with Segment-Level Labels [140.68096218667162]
時間的アクションローカライゼーションは、テストパフォーマンスとアノテーション時間コストのトレードオフを示す。
ここでは、アノテーションがアクションを観察するときにセグメントがラベル付けされる。
我々は、ラベル付きセグメントから積分的な動作部分を学ぶために、損失サンプリングと見なされる部分的なセグメント損失を考案する。
論文 参考訳(メタデータ) (2020-07-03T10:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。