論文の概要: Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection
- arxiv url: http://arxiv.org/abs/2111.13675v1
- Date: Fri, 26 Nov 2021 18:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 17:23:25.977494
- Title: Self-supervised Pretraining with Classification Labels for Temporal
Activity Detection
- Title(参考訳): 時間的活動検出のための分類ラベル付き自己教師付き事前学習
- Authors: Kumara Kahatapitiya, Zhou Ren, Haoxiang Li, Zhenyu Wu and Michael S.
Ryoo
- Abstract要約: 時間的アクティビティ検出は、1フレーム当たりのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
本研究では,分類ラベルを利用した自己教師付き事前学習手法を提案する。
- 参考スコア(独自算出の注目度): 54.366236719520565
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Activity Detection aims to predict activity classes per frame, in
contrast to video-level predictions as done in Activity Classification (i.e.,
Activity Recognition). Due to the expensive frame-level annotations required
for detection, the scale of detection datasets is limited. Thus, commonly,
previous work on temporal activity detection resorts to fine-tuning a
classification model pretrained on large-scale classification datasets (e.g.,
Kinetics-400). However, such pretrained models are not ideal for downstream
detection performance due to the disparity between the pretraining and the
downstream fine-tuning tasks. This work proposes a novel self-supervised
pretraining method for detection leveraging classification labels to mitigate
such disparity by introducing frame-level pseudo labels, multi-action frames,
and action segments. We show that the models pretrained with the proposed
self-supervised detection task outperform prior work on multiple challenging
activity detection benchmarks, including Charades and MultiTHUMOS. Our
extensive ablations further provide insights on when and how to use the
proposed models for activity detection. Code and models will be released
online.
- Abstract(参考訳): 時間的アクティビティ検出は、アクティビティ分類(アクティビティ認識)において行われるビデオレベルの予測とは対照的に、フレームごとのアクティビティクラスを予測することを目的としている。
検出に必要なフレームレベルのアノテーションが高価なため、検出データセットの規模は限られている。
したがって、一般に、時間的活動検出に関する以前の研究は、大規模な分類データセット(例えば、Kinetics-400)に基づいて事前訓練された分類モデルを微調整する。
しかし、これらの事前訓練されたモデルは、事前訓練と下流微調整タスクの相違により、下流検出性能に理想的ではない。
本研究では, フレームレベルの擬似ラベル, マルチアクションフレーム, アクションセグメントを導入して, 分類ラベルを利用した自己教師付き事前学習手法を提案する。
提案する自己教師あり検出タスクを事前学習したモデルが,チャレードやマルチトゥモスを含む複数の挑戦的アクティビティ検出ベンチマークの先行作業よりも優れていることを示す。
広範なアブレーションは,提案するモデルがいつ,どのように活動検出に使用されるのか,さらに洞察を与えてくれる。
コードとモデルはオンラインでリリースされる。
関連論文リスト
- Investigating Self-Supervised Methods for Label-Efficient Learning [27.029542823306866]
低撮影能力のためのコントラスト学習、クラスタリング、マスク付き画像モデリングなど、さまざまな自己教師付きプレテキストタスクについて検討する。
マスク画像モデリングとクラスタリングの両方をプリテキストタスクとして含むフレームワークを導入する。
実規模データセット上でモデルをテストした場合,マルチクラス分類,マルチラベル分類,セマンティックセマンティックセグメンテーションにおける性能向上を示す。
論文 参考訳(メタデータ) (2024-06-25T10:56:03Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Label-Efficient Object Detection via Region Proposal Network
Pre-Training [58.50615557874024]
地域提案ネットワーク(RPN)に効果的な事前学習を提供するための簡単な事前学習タスクを提案する。
RPN事前学習のないマルチステージ検出器と比較して,本手法はダウンストリームタスク性能を継続的に改善することができる。
論文 参考訳(メタデータ) (2022-11-16T16:28:18Z) - ReAct: Temporal Action Detection with Relational Queries [84.76646044604055]
本研究は,アクションクエリを備えたエンコーダ・デコーダフレームワークを用いて,時間的行動検出(TAD)の進展を図ることを目的とする。
まず,デコーダ内の関係注意機構を提案し,その関係に基づいてクエリ間の関心を誘導する。
最後に、高品質なクエリを区別するために、推論時に各アクションクエリのローカライズ品質を予測することを提案する。
論文 参考訳(メタデータ) (2022-07-14T17:46:37Z) - Cluster & Tune: Boost Cold Start Performance in Text Classification [21.957605438780224]
実世界のシナリオでは、ラベル付きデータが不足している場合、テキスト分類タスクはコールドスタートから始まることが多い。
中間的教師なし分類タスクを追加することにより,そのようなモデルの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T15:29:34Z) - DAP: Detection-Aware Pre-training with Weak Supervision [37.336674323981285]
本稿では,オブジェクト検出タスクに対する検出認識事前学習(DAP)アプローチを提案する。
分類データセットをクラスアクティベーションマップに基づく弱教師付きオブジェクトローカライズ手法により検出データセットに変換する。
VOCやCOCOなどの下流検出タスクにおいて,サンプル効率と収束速度の両面で,DAPが従来の事前学習よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-30T19:48:30Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z) - Revisiting Few-shot Activity Detection with Class Similarity Control [107.79338380065286]
本稿では,提案回帰に基づく数ショットの時間的活動検出のためのフレームワークを提案する。
我々のモデルはエンドツーエンドのトレーニングが可能で、数ショットのアクティビティと未トリミングなテストビデオのフレームレートの違いを考慮しており、さらに数ショットのサンプルの恩恵を受けることができる。
論文 参考訳(メタデータ) (2020-03-31T22:02:38Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。