論文の概要: WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2006.03732v2
- Date: Tue, 18 May 2021 18:19:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:11:36.777747
- Title: WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos
- Title(参考訳): WOAD:未公開動画のオンラインアクション検出を監督
- Authors: Mingfei Gao, Yingbo Zhou, Ran Xu, Richard Socher, Caiming Xiong
- Abstract要約: ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
- 参考スコア(独自算出の注目度): 124.72839555467944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online action detection in untrimmed videos aims to identify an action as it
happens, which makes it very important for real-time applications. Previous
methods rely on tedious annotations of temporal action boundaries for training,
which hinders the scalability of online action detection systems. We propose
WOAD, a weakly supervised framework that can be trained using only video-class
labels. WOAD contains two jointly-trained modules, i.e., temporal proposal
generator (TPG) and online action recognizer (OAR). Supervised by video-class
labels, TPG works offline and targets at accurately mining pseudo frame-level
labels for OAR. With the supervisory signals from TPG, OAR learns to conduct
action detection in an online fashion. Experimental results on THUMOS'14,
ActivityNet1.2 and ActivityNet1.3 show that our weakly-supervised method
largely outperforms weakly-supervised baselines and achieves comparable
performance to the previous strongly-supervised methods. Beyond that, WOAD is
flexible to leverage strong supervision when it is available. When strongly
supervised, our method obtains the state-of-the-art results in the tasks of
both online per-frame action recognition and online detection of action start.
- Abstract(参考訳): 非トリミングビデオ中のオンラインアクション検出は、発生時のアクションを識別することを目的としているため、リアルタイムアプリケーションにとって非常に重要である。
従来は、オンライン行動検出システムのスケーラビリティを妨げる時間的行動境界の面倒なアノテーションをトレーニングに頼っていた。
ビデオクラスラベルのみを用いてトレーニング可能な弱教師付きフレームワークであるWOADを提案する。
WOADには、時間的提案生成(TPG)とオンラインアクション認識(OAR)の2つの共同訓練モジュールが含まれている。
ビデオクラスのラベルによって監督され、TPGはオフラインで動作し、OARの擬似フレームレベルのラベルを正確にマイニングするターゲットとなる。
TPGからの監視信号により、OARはオンライン方式で行動検出を行うことを学ぶ。
thumos'14, activitynet1.2, activitynet1.3の実験結果は,弱教師付き手法が弱教師付きベースラインをほとんど上回っており,従来の強教師付き手法と同等の性能を達成していることを示している。
さらに、WOADは、利用可能な時に強力な監視を活用するために柔軟です。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の結果を得る。
関連論文リスト
- ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos [35.371453530275666]
ActionSwitchは、オーバーラップするアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークである。
クラス情報への依存をなくすことで、ActionSwitchは様々な状況に幅広い適用性を提供します。
論文 参考訳(メタデータ) (2024-07-17T20:07:05Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - Semi-supervised Active Learning for Video Action Detection [8.110693267550346]
我々はラベル付きデータとラベルなしデータの両方を利用する、新しい半教師付きアクティブラーニング手法を開発した。
提案手法は,UCF-24-101,JHMDB-21,Youtube-VOSの3種類のベンチマークデータセットに対して評価を行った。
論文 参考訳(メタデータ) (2023-12-12T11:13:17Z) - Bridging Images and Videos: A Simple Learning Framework for Large
Vocabulary Video Object Detection [110.08925274049409]
検出と追跡を学習するために、利用可能なすべてのトレーニングデータを最大限に活用する、シンプルだが効果的な学習フレームワークを提案する。
様々な大語彙トラッカーを一貫した改良が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T10:33:03Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - Two-Stream AMTnet for Action Detection [12.581710073789848]
本稿では,オンライン行動検出のための新しいディープニューラルネットワークアーキテクチャを提案する。
Two-Stream AMTnetは、標準アクション検出ベンチマークにおける最先端アプローチよりも優れた動作検出性能を示す。
論文 参考訳(メタデータ) (2020-04-03T12:16:45Z) - A Novel Online Action Detection Framework from Untrimmed Video Streams [19.895434487276578]
本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
論文 参考訳(メタデータ) (2020-03-17T14:11:24Z) - Delving into 3D Action Anticipation from Streaming Videos [99.0155538452263]
アクション予測は、部分的な観察でアクションを認識することを目的としている。
本稿では,いくつかの相補的評価指標を導入し,フレームワイド動作分類に基づく基本モデルを提案する。
また,全動作表現とクラス非依存行動ラベルという2つの側面から補助情報を取り入れたマルチタスク学習戦略についても検討する。
論文 参考訳(メタデータ) (2019-06-15T10:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。