論文の概要: OmViD: Omni-supervised active learning for video action detection
- arxiv url: http://arxiv.org/abs/2508.13983v1
- Date: Tue, 19 Aug 2025 16:19:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.013384
- Title: OmViD: Omni-supervised active learning for video action detection
- Title(参考訳): OmViD:Omniによるビデオアクション検出のためのアクティブラーニング
- Authors: Aayush Rana, Akash Kumar, Vibhav Vineet, Yogesh S Rawat,
- Abstract要約: この研究では、ビデオレベルのタグ、ポイント、スクリブル、バウンディングボックス、ピクセルレベルのマスクについて調査している。
これらのアノテーションから擬似ラベルを生成するために、新しい3D-スーパーピクセルアプローチを導入し、効果的なトレーニングを可能にした。
このアプローチは101-24とJHMDB-21データセットで検証されている。
- 参考スコア(独自算出の注目度): 22.870129496984546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video action detection requires dense spatio-temporal annotations, which are both challenging and expensive to obtain. However, real-world videos often vary in difficulty and may not require the same level of annotation. This paper analyzes the appropriate annotation types for each sample and their impact on spatio-temporal video action detection. It focuses on two key aspects: 1) how to obtain varying levels of annotation for videos, and 2) how to learn action detection from different annotation types. The study explores video-level tags, points, scribbles, bounding boxes, and pixel-level masks. First, a simple active learning strategy is proposed to estimate the necessary annotation type for each video. Then, a novel spatio-temporal 3D-superpixel approach is introduced to generate pseudo-labels from these annotations, enabling effective training. The approach is validated on UCF101-24 and JHMDB-21 datasets, significantly cutting annotation costs with minimal performance loss.
- Abstract(参考訳): ビデオアクション検出には高密度な時空間アノテーションが必要である。
しかし、現実の動画はしばしば難易度が異なり、同じレベルのアノテーションを必要としない場合がある。
本稿では,サンプルごとの適切なアノテーションタイプと時空間ビデオ行動検出への影響について分析する。
それは2つの重要な側面に焦点を当てている。
1)ビデオの様々なレベルのアノテーションを得る方法、及び
2) さまざまなアノテーションタイプからアクション検出を学習する方法。
この研究では、ビデオレベルのタグ、ポイント、スクリブル、バウンディングボックス、ピクセルレベルのマスクについて調査している。
まず,ビデオ毎に必要となるアノテーションタイプを推定するために,簡単な能動学習戦略を提案する。
そして、これらのアノテーションから擬似ラベルを生成するために、新しい時空間3Dスーパーピクセルアプローチを導入し、効果的なトレーニングを可能にした。
このアプローチはUCF101-24とJHMDB-21データセットで検証され、パフォーマンス損失を最小限に抑えてアノテーションコストを大幅に削減する。
関連論文リスト
- Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Towards Active Learning for Action Spotting in Association Football
Videos [59.84375958757395]
フットボールビデオの分析は困難であり、微妙で多様な時間的パターンを特定する必要がある。
現在のアルゴリズムは、限られた注釈付きデータから学ぶ際に大きな課題に直面している。
次にアノテートすべき最も情報に富んだビデオサンプルを選択する能動的学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-09T11:50:41Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - An Empirical Study of End-to-End Temporal Action Detection [82.64373812690127]
時間的行動検出(TAD)はビデオ理解において重要な課題である。
エンド・ツー・エンドの学習よりも、既存のほとんどの手法では、ヘッドオンリーの学習パラダイムを採用しています。
頭のみの学習よりもエンド・ツー・エンドの学習の利点を検証し、最大11%のパフォーマンス向上を観察する。
論文 参考訳(メタデータ) (2022-04-06T16:46:30Z) - End-to-End Semi-Supervised Learning for Video Action Detection [23.042410033982193]
ラベルのないデータを効果的に活用するシンプルなエンドツーエンドアプローチを提案する。
ビデオアクション検出には、アクションクラス予測と時間的一貫性の両方が必要である。
提案手法が2つの異なる行動検出ベンチマークデータセットに対して有効であることを示す。
論文 参考訳(メタデータ) (2022-03-08T18:11:25Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。