論文の概要: Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2208.14856v1
- Date: Wed, 31 Aug 2022 13:39:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:33:13.058872
- Title: Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization
- Title(参考訳): 半教師付き時間行動定位のための効果的なスコアリング機能付きアクティブラーニング
- Authors: Ding Li, Xuebing Yang, Yongqiang Tang, Chenyang Zhang and Wensheng
Zhang
- Abstract要約: 本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
- 参考スコア(独自算出の注目度): 15.031156121516211
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal Action Localization (TAL) aims to predict both action category and
temporal boundary of action instances in untrimmed videos, i.e., start and end
time. Fully-supervised solutions are usually adopted in most existing works,
and proven to be effective. One of the practical bottlenecks in these solutions
is the large amount of labeled training data required. To reduce expensive
human label cost, this paper focuses on a rarely investigated yet practical
task named semi-supervised TAL and proposes an effective active learning
method, named AL-STAL. We leverage four steps for actively selecting video
samples with high informativeness and training the localization model, named
\emph{Train, Query, Annotate, Append}. Two scoring functions that consider the
uncertainty of localization model are equipped in AL-STAL, thus facilitating
the video sample rank and selection. One takes entropy of predicted label
distribution as measure of uncertainty, named Temporal Proposal Entropy (TPE).
And the other introduces a new metric based on mutual information between
adjacent action proposals and evaluates the informativeness of video samples,
named Temporal Context Inconsistency (TCI). To validate the effectiveness of
proposed method, we conduct extensive experiments on two benchmark datasets
THUMOS'14 and ActivityNet 1.3. Experiment results show that AL-STAL outperforms
the existing competitors and achieves satisfying performance compared with
fully-supervised learning.
- Abstract(参考訳): 時間的アクションローカライゼーション(TAL)は、未トリミングビデオ(開始時間と終了時間)におけるアクションのカテゴリと時間的境界の両方を予測することを目的としている。
完全な教師付き解は、通常、ほとんどの既存の作品で採用され、効果的であることが証明されている。
これらのソリューションの現実的なボトルネックのひとつは、大量のラベル付きトレーニングデータを必要とすることだ。
人為的ラベルコストの低減を図るため,半教師型talという課題に焦点をあて,AL-STALという効果的なアクティブラーニング手法を提案する。
我々は,高情報度ビデオサンプルを積極的に選択する4つのステップを活用し,ローカライズモデルである \emph{train, query, annotate, append} を訓練する。
ローカライゼーションモデルの不確実性を考慮した2つのスコアリング関数をAL-STALに装備することにより,ビデオサンプルのランクと選択を容易にする。
予測ラベル分布のエントロピーは、TPE(Temporal Proposal Entropy)と呼ばれる不確実性の尺度である。
また,隣接する行動提案間の相互情報に基づく新たな指標を導入し,tci(temporal context inconsistency)と呼ばれるビデオサンプルのインフォメーション性を評価する。
提案手法の有効性を検証するため、2つのベンチマークデータセットTHUMOS'14とActivityNet 1.3について広範な実験を行った。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Test-Time Zero-Shot Temporal Action Localization [58.84919541314969]
ZS-TALは、トレーニング中に目に見えないビデオのアクションを特定し、見つけようとしている。
トレーニングベースのZS-TALアプローチは、教師あり学習のためのラベル付きデータの可用性を前提としている。
時間的行動ローカライゼーション(T3AL)のためのテスト時間適応を行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T11:54:49Z) - Proposal-based Temporal Action Localization with Point-level Supervision [29.98225940694062]
ポイントレベルの時間的行動ローカライゼーション(PTAL)は、未トリミングビデオにおけるアクションの認識とローカライズを目的としている。
そこで本研究では,フレキシブル期間のアクション提案を生成し,評価することで,アクションをローカライズする手法を提案する。
実験の結果,提案手法は最先端手法の競争力や性能に優れることがわかった。
論文 参考訳(メタデータ) (2023-10-09T08:27:05Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Temporal Action Detection with Global Segmentation Mask Learning [134.26292288193298]
既存の時間的行動検出(TAD)手法は、ビデオ毎に圧倒的に多くの提案を生成することに依存している。
我々は,グローバルマスク(TAGS)を用いた提案不要な時間行動検出モデルを提案する。
私たちの中核となる考え方は、アクションインスタンスのグローバルセグメンテーションマスクをフルビデオ長で共同で学習することです。
論文 参考訳(メタデータ) (2022-07-14T00:46:51Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。