論文の概要: Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2407.07024v2
- Date: Wed, 2 Oct 2024 10:37:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:51:19.952283
- Title: Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization
- Title(参考訳): オープンボキャブラリ時間行動定位のための自己学習のスケーラビリティを探る
- Authors: Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim,
- Abstract要約: 時間的行動ローカライゼーション(OV-TAL)のためのラベルなしYouTubeビデオによる自己学習のスケーラビリティについて検討する。
提案手法は,(1)分類に依存しない行動ローカライザを人間のラベル付きtalデータセット上でトレーニングし,未ラベル付きビデオの擬似ラベルを生成し,(2)大規模擬似ラベル付きデータセットを用いてローカライザのトレーニングを行う。
- 参考スコア(独自算出の注目度): 44.00346424334902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The vocabulary size in temporal action localization (TAL) is limited by the scarcity of large-scale annotated datasets. To overcome this, recent works integrate vision-language models (VLMs), such as CLIP, for open-vocabulary TAL (OV-TAL). However, despite the success of VLMs trained on extensive datasets, existing OV-TAL methods still rely on human-labeled TAL datasets of limited size to train action localizers, limiting their generalizability. In this paper, we explore the scalability of self-training with unlabeled YouTube videos for OV-TAL. Our approach consists of two stages: (1) a class-agnostic action localizer is trained on a human-labeled TAL dataset to generate pseudo-labels for unlabeled videos, and (2) the large-scale pseudo-labeled dataset is then used to train the localizer. Extensive experiments demonstrate that leveraging web-scale videos in self-training significantly enhances the generalizability of an action localizer. Additionally, we identify limitations in existing OV-TAL evaluation schemes and propose a new benchmark for thorough assessment. Finally, we showcase the TAL performance of the large multimodal model Gemini-1.5 on our new benchmark. Code is released at https://github.com/HYUNJS/STOV-TAL.
- Abstract(参考訳): 時間的行動ローカライゼーション(TAL)における語彙サイズは、大規模な注釈付きデータセットの不足によって制限される。
これを解決するために、最近の研究は、オープン語彙TAL(OV-TAL)のための、CLIP(CLIP)のようなビジョン言語モデル(VLM)を統合している。
しかしながら、大規模なデータセットでトレーニングされたVLMの成功にもかかわらず、既存のOV-TALメソッドは、アクションローカライザをトレーニングするために、制限されたサイズの人ラベルのTALデータセットに依存しており、その一般化性は制限されている。
本稿では,OV-TAL用未ラベルYouTubeビデオによる自己学習のスケーラビリティについて検討する。
提案手法は,(1)分類に依存しない行動ローカライザを人間のラベル付きtalデータセット上でトレーニングし,未ラベル付きビデオの擬似ラベルを生成し,(2)大規模擬似ラベル付きデータセットを用いてローカライザのトレーニングを行う。
大規模な実験により、自己学習におけるWebスケールビデオの利用は、アクションローカライザの一般化可能性を大幅に向上させることが示された。
さらに,既存のOV-TAL評価手法の限界を特定し,徹底的な評価のための新しいベンチマークを提案する。
最後に,大規模マルチモーダルモデル Gemini-1.5 の TAL 性能を新しいベンチマークで示す。
コードはhttps://github.com/HYUNJS/STOV-TALで公開されている。
関連論文リスト
- UAL-Bench: The First Comprehensive Unusual Activity Localization Benchmark [20.15425745473231]
ビデオにおけるヒューマンエラーや監視インシデントなどの異常な活動のローカライズは、現実的に重要な意味を持つ。
異常な活動のローカライズにおける基礎モデルの能力を探るため,UAL-Benchを紹介する。
UAL-Benchには、UAG-OOPS、UAG-SSBD、UAG-FunQAという3つのビデオデータセットと、OOPS-UAG-Instructというインストラクション・トゥンデータセットがある。
以上の結果から,VLM-LLMアプローチはVid-LLMよりも短時間の異常事象の局所化や開始時刻の予測に優れていた。
論文 参考訳(メタデータ) (2024-10-02T02:33:09Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - Temporal Action Localization for Inertial-based Human Activity Recognition [9.948823510429902]
ビデオベースのヒューマンアクティビティ認識(TAL)は、任意の長さのタイムラインでアクティビティセグメントをローカライズするセグメントベースの予測アプローチに従っている。
本論文は、オフラインとニアオンラインのHAR(Human Activity Recognition)における最先端のTALモデルの適用性を体系的に示す最初のものである。
時系列全体を解析することにより、TALモデルはよりコヒーレントなセグメントを生成し、全てのデータセットに対して高いNULLクラス精度を実現することができることを示す。
論文 参考訳(メタデータ) (2023-11-27T13:55:21Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - A Global Model Approach to Robust Few-Shot SAR Automatic Target
Recognition [6.260916845720537]
ディープラーニングベースのSAR自動ターゲット認識(ATR)モデルをトレーニングするために、クラス毎に数百のラベル付きサンプルを収集できるとは限らない。
この研究は特に数発のSAR ATR問題に対処しており、興味のあるタスクをサポートするためにラベル付きサンプルがわずかである。
論文 参考訳(メタデータ) (2023-03-20T00:24:05Z) - Active Learning with Effective Scoring Functions for Semi-Supervised
Temporal Action Localization [15.031156121516211]
本稿では,半教師型talという,滅多に研究されていない実践的な課題に焦点を当てる。
本稿では,AL-STALという効果的な能動学習手法を提案する。
実験の結果,AL-STALは既存の競争相手よりも優れ,完全教師付き学習と比較して満足度が高いことがわかった。
論文 参考訳(メタデータ) (2022-08-31T13:39:38Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Reducing the Annotation Effort for Video Object Segmentation Datasets [50.893073670389164]
ピクセルマスクでフレームを密にラベル付けしても 大規模なデータセットにはスケールしない
我々は、より安価なバウンディングボックスアノテーションからピクセルレベルで擬似ラベルを自動生成するために、深層畳み込みネットワークを使用します。
我々は新しいTAO-VOSベンチマークを取得し、www.vision.rwth-aachen.de/page/taovosで公開している。
論文 参考訳(メタデータ) (2020-11-02T17:34:45Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。