論文の概要: Unsupervised Temporal Action Localization via Self-paced Incremental
Learning
- arxiv url: http://arxiv.org/abs/2312.07384v1
- Date: Tue, 12 Dec 2023 16:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:25:42.834896
- Title: Unsupervised Temporal Action Localization via Self-paced Incremental
Learning
- Title(参考訳): 自己ペーストインクリメンタルラーニングによる教師なし時間行動定位
- Authors: Haoyu Tang, Han Jiang, Mingzhu Xu, Yupeng Hu, Jihua Zhu, Liqiang Nie
- Abstract要約: 本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの漸進学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
- 参考スコア(独自算出の注目度): 57.55765505856969
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, temporal action localization (TAL) has garnered significant
interest in information retrieval community. However, existing
supervised/weakly supervised methods are heavily dependent on extensive labeled
temporal boundaries and action categories, which is labor-intensive and
time-consuming. Although some unsupervised methods have utilized the
``iteratively clustering and localization'' paradigm for TAL, they still suffer
from two pivotal impediments: 1) unsatisfactory video clustering confidence,
and 2) unreliable video pseudolabels for model training. To address these
limitations, we present a novel self-paced incremental learning model to
enhance clustering and localization training simultaneously, thereby
facilitating more effective unsupervised TAL. Concretely, we improve the
clustering confidence through exploring the contextual feature-robust visual
information. Thereafter, we design two (constant- and variable- speed)
incremental instance learning strategies for easy-to-hard model training, thus
ensuring the reliability of these video pseudolabels and further improving
overall localization performance. Extensive experiments on two public datasets
have substantiated the superiority of our model over several state-of-the-art
competitors.
- Abstract(参考訳): 近年,temporal action localization (tal) が情報検索コミュニティに大きな関心を集めている。
しかし、既存の監督/監視手法は、労働集約的で時間を要する広範囲なラベル付き時間境界と行動カテゴリーに大きく依存している。
教師なしの手法の中には、talの ‘iterative clustering and localization’ パラダイムを利用したものもあるが、依然として2つの重要な障害を抱えている。
1)不満足なビデオクラスタリングの信頼性
2)モデルトレーニングのための信頼性の低いビデオ擬似ラベル。
これらの制約に対処するために,クラスタリングとローカライズトレーニングを同時に強化し,より効果的な教師なしtalを実現するための,新しい自己ペースインクリメンタル学習モデルを提案する。
具体的には,コンテキスト的特徴損なう視覚情報を探索することで,クラスタリングの信頼性を向上させる。
その後,難解なモデルトレーニングのためのインクリメンタルインスタンス学習戦略を2つ設計し,ビデオ擬似ラベルの信頼性を保証し,全体的なローカライズ性能をさらに向上させる。
2つの公開データセットに対する大規模な実験は、いくつかの最先端の競合相手よりも、我々のモデルの優位性を裏付けている。
関連論文リスト
- Learning Discriminative Spatio-temporal Representations for Semi-supervised Action Recognition [23.44320273156057]
本稿では,適応コントラスト学習(ACL)戦略とマルチスケールテンポラル学習(MTL)戦略を提案する。
ACL戦略は、ラベル付きデータのクラスプロトタイプにより、全ての未ラベルサンプルの信頼性を評価し、擬ラベル付きサンプルバンクから正負のサンプルを適応的に選択し、コントラスト学習を構築する。
MTL戦略は、長期クリップからの情報的意味を強調し、ノイズ情報を抑制しながら、それらを短期クリップに統合する。
論文 参考訳(メタデータ) (2024-04-25T08:49:08Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - TrACT: A Training Dynamics Aware Contrastive Learning Framework for Long-tail Trajectory Prediction [7.3292387742640415]
本稿では,よりリッチなトレーニングダイナミックス情報を,原型的コントラスト学習フレームワークに組み込むことを提案する。
我々は,2つの大規模自然主義データセットを用いたアプローチの実証評価を行った。
論文 参考訳(メタデータ) (2024-04-18T23:12:46Z) - No More Shortcuts: Realizing the Potential of Temporal Self-Supervision [69.59938105887538]
本稿では、フレームレベルの認識タスクではなく、フレームレベルの認識タスクとして、時間的自己監督のより困難な再構築を提案する。
我々は、より困難なフレームレベルのタスクの定式化とショートカットの削除が、時間的自己監督によって学習された特徴の質を大幅に改善することを示した。
論文 参考訳(メタデータ) (2023-12-20T13:20:31Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Weakly-Supervised Temporal Action Localization by Inferring Salient
Snippet-Feature [26.7937345622207]
弱教師付き時間的アクションローカライゼーションは、教師なしビデオ内のアクション領域を特定し、アクションカテゴリを同時に特定することを目的としている。
擬似ラベル生成は、この課題を解決するための有望な戦略であるが、現在の手法ではビデオの自然な時間構造を無視している。
そこで本研究では,有意なスニペット特徴を推定し,時間的動作の局所化を弱く制御する手法を提案する。
論文 参考訳(メタデータ) (2023-03-22T06:08:34Z) - Accelerating Self-Supervised Learning via Efficient Training Strategies [98.26556609110992]
自己監督型ディープネットワークのトレーニング時間は、教師付きディープネットワークよりも桁違いに大きい。
これらの課題に乗じて,近年の自己指導手法の訓練時間を短縮する方法について検討する。
論文 参考訳(メタデータ) (2022-12-11T21:49:39Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Zero-Shot Temporal Action Detection via Vision-Language Prompting [134.26292288193298]
視覚言語プロンプト(STALE)を用いた新しいゼロショット時間行動検出モデルを提案する。
我々のモデルは最先端の代替品を著しく上回っている。
我々のモデルは、近年の強力な競合相手よりも監督的TADにおいて優れた結果をもたらす。
論文 参考訳(メタデータ) (2022-07-17T13:59:46Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。