論文の概要: Stable Mean Teacher for Semi-supervised Video Action Detection
- arxiv url: http://arxiv.org/abs/2412.07072v2
- Date: Mon, 23 Dec 2024 01:39:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 19:20:54.994254
- Title: Stable Mean Teacher for Semi-supervised Video Action Detection
- Title(参考訳): 半教師型ビデオ行動検出のための安定的平均教師
- Authors: Akash Kumar, Sirshapan Mitra, Yogesh Singh Rawat,
- Abstract要約: 我々は,映像行動検出のための半教師付き学習に焦点を当てた。
改良された時間的に一貫した擬似ラベルの恩恵を受ける、シンプルなエンドツーエンドの教師ベースのフレームワークである安定平均教師を紹介する。
- 参考スコア(独自算出の注目度): 3.5743998666556855
- License:
- Abstract: In this work, we focus on semi-supervised learning for video action detection. Video action detection requires spatiotemporal localization in addition to classification, and a limited amount of labels makes the model prone to unreliable predictions. We present Stable Mean Teacher, a simple end-to-end teacher-based framework that benefits from improved and temporally consistent pseudo labels. It relies on a novel Error Recovery (EoR) module, which learns from students' mistakes on labeled samples and transfers this knowledge to the teacher to improve pseudo labels for unlabeled samples. Moreover, existing spatiotemporal losses do not take temporal coherency into account and are prone to temporal inconsistencies. To address this, we present Difference of Pixels (DoP), a simple and novel constraint focused on temporal consistency, leading to coherent temporal detections. We evaluate our approach on four different spatiotemporal detection benchmarks: UCF101-24, JHMDB21, AVA, and YouTube-VOS. Our approach outperforms the supervised baselines for action detection by an average margin of 23.5% on UCF101-24, 16% on JHMDB21, and 3.3% on AVA. Using merely 10% and 20% of data, it provides competitive performance compared to the supervised baseline trained on 100% annotations on UCF101-24 and JHMDB21, respectively. We further evaluate its effectiveness on AVA for scaling to large-scale datasets and YouTube-VOS for video object segmentation, demonstrating its generalization capability to other tasks in the video domain. Code and models are publicly available.
- Abstract(参考訳): 本研究では,映像行動検出のための半教師付き学習に着目した。
ビデオアクション検出には分類に加えて時空間的局所化が必要であり、ラベルの数が限られているため、モデルは信頼性の低い予測をしがちである。
改良された時間的に一貫した擬似ラベルの恩恵を受ける、シンプルなエンドツーエンドの教師ベースのフレームワークである安定平均教師を紹介する。
このモジュールは、学生のラベル付きサンプルの誤りから学び、この知識を教師に伝え、ラベルなしサンプルの擬似ラベルを改善する。
さらに、既存の時空間的損失は時間的一貫性を考慮に入れず、時間的不整合を生じやすい。
これを解決するために、時間的一貫性に焦点を絞ったシンプルで斬新な制約である差分画素(DoP)を提示し、コヒーレントな時間的検出をもたらす。
UCF101-24, JHMDB21, AVA, YouTube-VOSの4種類の時空間検出ベンチマークについて検討した。
提案手法は,UCF101-24では平均23.5%,JHMDB21では16%,AVAでは3.3%,行動検出では平均23.5%の基準値よりも優れていた。
データの10%と20%だけを使用して、UCF101-24とJHMDB21の100%アノテーションでトレーニングされた教師付きベースラインと比較して、競争力のあるパフォーマンスを提供する。
さらに、大規模データセットへのスケーリングにおけるAVAの有効性と、ビデオオブジェクトのセグメンテーションにおけるYouTube-VOSの有効性を評価し、ビデオ領域内の他のタスクへの一般化能力を実証した。
コードとモデルは公開されている。
関連論文リスト
- Weakly Contrastive Learning via Batch Instance Discrimination and Feature Clustering for Small Sample SAR ATR [7.2932563202952725]
BIDFC(Batch Instance Discrimination and Feature Clustering)と呼ばれる新しいフレームワークを提案する。
本枠組みでは,SAR画像中の試料間の類似度が高いため,試料間の埋め込み距離は適度である。
移動・静止目標獲得・認識(MSTAR)データベースの実験結果から,3.13%のトレーニングデータに基づいて,本手法の91.25%の分類精度が得られた。
論文 参考訳(メタデータ) (2024-08-07T08:39:33Z) - HomE: Homography-Equivariant Video Representation Learning [62.89516761473129]
マルチビュービデオの表現学習のための新しい手法を提案する。
提案手法は異なる視点間の暗黙的なマッピングを学習し,近隣の視点間のホモグラフィ関係を維持する表現空間を決定づける。
動作分類では,UCF101データセットの96.4%の3倍精度が得られた。
論文 参考訳(メタデータ) (2023-06-02T15:37:43Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - Auxiliary Learning for Self-Supervised Video Representation via
Similarity-based Knowledge Distillation [2.6519061087638014]
本稿では,知識類似度蒸留法(auxSKD)を基礎として,補助的プレトレーニングフェーズを通じて自己指導型プレトレーニングを補完する新しい手法を提案する。
本手法は,学習者の学習モデルに対する知識を反復的に消し去る教師ネットワークを,未学習映像データのセグメント間の類似情報をキャプチャすることで展開する。
また、入力ビデオのランダムに選択されたセグメントの再生速度を予測し、より信頼性の高い自己教師付き表現を提供するための新しいプリテキストタスク、ビデオセグメントペース予測(VSPP)を導入する。
論文 参考訳(メタデータ) (2021-12-07T21:50:40Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z) - Self-supervised Temporal Discriminative Learning for Video
Representation Learning [39.43942923911425]
注釈付き大規模ビデオアクションデータセットをトレーニングに使わずに、時間差分の特徴を抽出することは困難である。
本稿では,ビデオに基づく時間識別学習フレームワークを自己指導型で提案する。
論文 参考訳(メタデータ) (2020-08-05T13:36:59Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。