論文の概要: A Novel Online Action Detection Framework from Untrimmed Video Streams
- arxiv url: http://arxiv.org/abs/2003.07734v1
- Date: Tue, 17 Mar 2020 14:11:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 21:30:05.323182
- Title: A Novel Online Action Detection Framework from Untrimmed Video Streams
- Title(参考訳): 非トリミングビデオストリームからの新たなオンラインアクション検出フレームワーク
- Authors: Da-Hye Yoon, Nam-Gyu Cho, Seong-Whan Lee
- Abstract要約: 本稿では,時間的に順序付けられたサブクラスの集合として行動を検出する新しいオンライン行動検出フレームワークを提案する。
提案手法は,映像の長さを変化させることで,人間の行動における高いクラス内変動を学習できるようにする。
- 参考スコア(独自算出の注目度): 19.895434487276578
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online temporal action localization from an untrimmed video stream is a
challenging problem in computer vision. It is challenging because of i) in an
untrimmed video stream, more than one action instance may appear, including
background scenes, and ii) in online settings, only past and current
information is available. Therefore, temporal priors, such as the average
action duration of training data, which have been exploited by previous action
detection methods, are not suitable for this task because of the high
intra-class variation in human actions. We propose a novel online action
detection framework that considers actions as a set of temporally ordered
subclasses and leverages a future frame generation network to cope with the
limited information issue associated with the problem outlined above.
Additionally, we augment our data by varying the lengths of videos to allow the
proposed method to learn about the high intra-class variation in human actions.
We evaluate our method using two benchmark datasets, THUMOS'14 and ActivityNet,
for an online temporal action localization scenario and demonstrate that the
performance is comparable to state-of-the-art methods that have been proposed
for offline settings.
- Abstract(参考訳): ビデオストリームからのオンラインの時間的動作のローカライズは、コンピュータビジョンにおいて難しい問題である。
それは故に挑戦している
一 未トリミング映像において、背景シーンを含む複数のアクション・インスタンスが出現しうること。
二 オンラインの設定においては、過去及び現在に関する情報のみを利用できる。
そのため、従来の行動検出手法によって活用されたトレーニングデータの平均動作時間などの時間的先行は、人間の行動のクラス内変動が大きいため、このタスクには適していない。
本稿では,アクションを時間的に順序付けられたサブクラスの集合として考慮し,将来的なフレーム生成ネットワークを活用して,上記の問題に関連する限られた情報問題に対処する,新しいオンライン行動検出フレームワークを提案する。
さらに,提案手法が人間の行動のクラス内における高い変化を学べるように,動画の長さを変えてデータを強化する。
オンラインの時間的行動ローカライズシナリオにおいて, THUMOS'14とActivityNetという2つのベンチマークデータセットを用いて評価を行い, オフライン環境で提案した最先端手法に匹敵する性能を示す。
関連論文リスト
- ActPrompt: In-Domain Feature Adaptation via Action Cues for Video Temporal Grounding [40.60371529725805]
本稿では,機能適応のためのドメイン内ファインチューニングのパラダイムを提案する。
本稿では, VLMのイメージエンコーダにアクションキューを注入し, アクションに敏感なパターンの発見に役立てるアクションキュー注入型テンポラルプロンプト学習(ActPrompt)を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - ActionSwitch: Class-agnostic Detection of Simultaneous Actions in Streaming Videos [35.371453530275666]
ActionSwitchは、オーバーラップするアクションを検出することができる最初のクラスに依存しないOn-TALフレームワークである。
クラス情報への依存をなくすことで、ActionSwitchは様々な状況に幅広い適用性を提供します。
論文 参考訳(メタデータ) (2024-07-17T20:07:05Z) - Open-Vocabulary Spatio-Temporal Action Detection [59.91046192096296]
OV-STAD (Open-vocabulary-temporal action detection) は,ビデオ理解において重要な課題である。
OV-STADは、ボックスとラベルを監督する限定されたベースクラスでモデルをトレーニングする必要がある。
局所的なビデオ領域とテキストのペアに対して、細かなアクション検出タスクに対して、より精巧なVLMを適用するために、慎重に微調整を行う。
論文 参考訳(メタデータ) (2024-05-17T14:52:47Z) - SimOn: A Simple Framework for Online Temporal Action Localization [51.27476730635852]
一般的なTransformerアーキテクチャを用いて,アクションインスタンスの予測を学習するSimOnというフレームワークを提案する。
THUMOS14とActivityNet1.3データセットの実験結果は、我々のモデルが従来の手法よりも著しく優れていることを示している。
論文 参考訳(メタデータ) (2022-11-08T04:50:54Z) - A Circular Window-based Cascade Transformer for Online Action Detection [27.880350187125778]
我々は,オンライン行動検出の新しい,効率的な原則を提唱する。
1つのウィンドウで最新かつ最も古い歴史的表現を更新するだけであるが、既に計算されている中間表現を再利用する。
この原理に基づいて,複数ステージの注目と各ウィンドウのカスケード改善を行う,円形の履歴キューを備えたウィンドウベースカスケード変換器を導入する。
論文 参考訳(メタデータ) (2022-08-30T12:37:23Z) - AntPivot: Livestream Highlight Detection via Hierarchical Attention
Mechanism [64.70568612993416]
本稿では,Livestream Highlight Detectionという新たなタスクを定式化し,上記の課題を議論・分析し,新しいアーキテクチャAntPivotを提案する。
我々は、このタスクをインスタンス化し、我々のモデルの性能を評価するために、完全に注釈付きデータセットAntHighlightを構築した。
論文 参考訳(メタデータ) (2022-06-10T05:58:11Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos [124.72839555467944]
ビデオクラスラベルのみを用いてトレーニングできる弱教師付きフレームワークを提案する。
提案手法は, 弱教師付きベースラインよりも優れていることを示す。
本手法は,オンラインフレームごとの行動認識とオンライン行動開始検出の両方のタスクにおいて,最先端の成果を得る。
論文 参考訳(メタデータ) (2020-06-05T23:08:41Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。