論文の概要: WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2006.03732v2
- Date: Tue, 18 May 2021 18:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:11:36.777747
- Title: WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
- Title(参考訳): WOAD:未公開動画のオンラインアクション検出を監督
- Authors: Mingfei Gao, Yingbo Zhou, Ran Xu, Richard Socher, Caiming Xiong
- Abstract要約: ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
- 参考スコア(独自算出の注目度): 124.72839555467944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection in untrimmed videos aims to identify an action as it
happens, which makes it very important for real-time applications. Previous
methods rely on tedious annotations of temporal action boundaries for training,
which hinders the scalability of online action detection systems. We propose
WOAD, a weakly supervised framework that can be trained using only video-class
labels. WOAD contains two jointly-trained modules, i.e., temporal proposal
generator (TPG) and online action recognizer (OAR). Supervised by video-class
labels, TPG works offline and targets at accurately mining pseudo frame-level
labels for OAR. With the supervisory signals from TPG, OAR learns to conduct
action detection in an online fashion. Experimental results on THUMOS'14,
ActivityNet1.2 and ActivityNet1.3 show that our weakly-supervised method
largely outperforms weakly-supervised baselines and achieves comparable
performance to the previous strongly-supervised methods. Beyond that, WOAD is
flexible to leverage strong supervision when it is available. When strongly
supervised, our method obtains the state-of-the-art results in the tasks of
both online per-frame action recognition and online detection of action start.
- Abstract(参考訳): 非トリミングビデオ中のオンラインアクション検出は、発生時のアクションを識別することを目的としているため、リアルタイムアプリケーションにとって非常に重要である。
従来は、オンライン行動検出システムのスケーラビリティを妨げる時間的行動境界の面倒なアノテーションをトレーニングに頼っていた。
ビデオクラスラベルのみを用いてトレーニング可能な弱教師付きフレームワークであるWOADを提案する。
WOADには、時間的提案生成(TPG)とオンラインアクション認識(OAR)の2つの共同訓練モジュールが含まれている。
ビデオクラスのラベルによって監督され、TPGはオフラインで動作し、OARの擬似フレームレベルのラベルを正確にマイニングするターゲットとなる。
TPGからの監視信号により、OARはオンライン方式で行動検出を行うことを学ぶ。
thumos'14, activitynet1.2, activitynet1.3の実験結果は,弱教師付き手法が弱教師付きベースラインをほとんど上回っており,従来の強教師付き手法と同等の性能を達成していることを示している。
さらに、WOADは、利用可能な時に強力な監視を活用するために柔軟です。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の結果を得る。
関連論文リスト
- Action-Agnostic Point-Level Supervision for Temporal Action Detection [55.86569092972912]
そこで本研究では,光注釈付きデータセットを用いた時間的行動検出のためのアクション非依存のポイントレベル監視を提案する。
提案手法では,ビデオフレームのごく一部を教師なしの方法でサンプリングし,人間のアノテータに提示し,そのフレームにアクションカテゴリをラベル付けする。
トリミングされていないビデオですべてのアクションインスタンスを検索するアノテータを必要とするポイントレベルの監視とは異なり、アノテートするフレームは人間の介入なしに選択される。
論文 参考訳(メタデータ) (2024-12-30T18:59:55Z) - ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos [35.371453530275666]
ActionSwitchは、オーバーラップするアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークである。
クラス情報への依存をなくすことで、ActionSwitchは様々な状況に幅広い適用性を提供します。
論文 参考訳(メタデータ) (2024-07-17T20:07:05Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Bridging Images and Videos: A Simple Learning Framework for Large
Vocabulary Video Object Detection [110.08925274049409]
検出と追跡を学習するために、利用可能なすべてのトレーニングデータを最大限に活用する、シンプルだが効果的な学習フレームワークを提案する。
様々な大語彙トラッカーを一貫した改良が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T10:33:03Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。