論文の概要: ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action
Spotting in Videos
- arxiv url: http://arxiv.org/abs/2004.06971v2
- Date: Tue, 10 Nov 2020 16:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 02:36:53.308653
- Title: ActionSpotter: Deep Reinforcement Learning Framework for Temporal Action
Spotting in Videos
- Title(参考訳): ActionSpotter:ビデオにおける時間的アクションスポッティングのための深層強化学習フレームワーク
- Authors: Guillaume Vaudaux-Ruth, Adrien Chan-Hon-Tong, Catherine Achard (ISIR,
PIROS, SU)
- Abstract要約: ActionSpotterは、Deep Reinforcement Learningを活用するスポッティングアルゴリズムで、ビデオブラウジング速度に適応しながら、アクションを効率的に検出する。
特に、THUMOS14の平均精度は、ビデオの23%をスキップしながら59.7%から65.6%に大幅に改善されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Summarizing video content is an important task in many applications. This
task can be defined as the computation of the ordered list of actions present
in a video. Such a list could be extracted using action detection algorithms.
However, it is not necessary to determine the temporal boundaries of actions to
know their existence. Moreover, localizing precise boundaries usually requires
dense video analysis to be effective. In this work, we propose to directly
compute this ordered list by sparsely browsing the video and selecting one
frame per action instance, task known as action spotting in literature. To do
this, we propose ActionSpotter, a spotting algorithm that takes advantage of
Deep Reinforcement Learning to efficiently spot actions while adapting its
video browsing speed, without additional supervision. Experiments performed on
datasets THUMOS14 and ActivityNet show that our framework outperforms state of
the art detection methods. In particular, the spotting mean Average Precision
on THUMOS14 is significantly improved from 59.7% to 65.6% while skipping 23% of
video.
- Abstract(参考訳): ビデオコンテンツの要約は多くのアプリケーションにおいて重要なタスクである。
このタスクは、ビデオに存在するアクションの順序付きリストの計算として定義することができる。
このようなリストは、アクション検出アルゴリズムを用いて抽出できる。
しかし、その存在を知るために行動の時間的境界を決定する必要はない。
さらに、正確な境界の局所化は、通常、密集したビデオ分析を効果的に必要とする。
そこで本研究では,映像をスムースに閲覧し,アクション・スポッティングとして知られるタスクであるアクション・インスタンスごとに1つのフレームを選択することで,この順序付きリストを直接計算することを提案する。
そこで本研究では,深層強化学習を活用し,映像閲覧速度に適応しつつ,追加の監督を必要とせず,効率的な動作検出を行うためのスポッティングアルゴリズムであるactionspotterを提案する。
THUMOS14とActivityNetで行った実験は、我々のフレームワークがアート検出方法の状態を上回ります。
特にthums14のスポッティング平均精度は59.7%から65.6%に大幅に向上し、ビデオの23%をスキップした。
関連論文リスト
- FMI-TAL: Few-shot Multiple Instances Temporal Action Localization by Probability Distribution Learning and Interval Cluster Refinement [2.261014973523156]
本稿では,確率学習とクラスタリファインメントを備えた空間チャネル関係変換器を提案する。
この方法は,クエリビデオ中のアクションの開始と終了の境界を正確に識別することができる。
本モデルでは,ベンチマークデータセットである ActivityNet1.3 と THUMOS14 を用いて,厳密な実験を行うことで,競争性能を実現する。
論文 参考訳(メタデータ) (2024-08-25T08:17:25Z) - Boundary-Denoising for Video Activity Localization [57.9973253014712]
本稿では,映像活動のローカライゼーション問題について,認知的視点から検討する。
具体的には,DenoiseLocというエンコーダデコーダモデルを提案する。
実験によると、DenoiseLocはいくつかのビデオアクティビティ理解タスクで%前進している。
論文 参考訳(メタデータ) (2023-04-06T08:48:01Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Deep Learning-based Action Detection in Untrimmed Videos: A Survey [20.11911785578534]
ほとんどの現実世界のビデオは長く、興味をそそる部分がある。
非トリミングビデオにおける時間的活動検出のタスクは、アクションの時間的境界をローカライズすることを目的としている。
本稿では,非トリミングビデオにおける時間的行動検出のためのディープラーニングに基づくアルゴリズムの概要について述べる。
論文 参考訳(メタデータ) (2021-09-30T22:42:25Z) - TinyVIRAT: Low-resolution Video Action Recognition [70.37277191524755]
現実世界の監視環境では、ビデオ内のアクションは幅広い解像度でキャプチャされる。
天然の低解像度アクティビティを含むベンチマークデータセットTinyVIRATを導入する。
本稿では,プログレッシブ・ジェネレーティブ・アプローチを用いたビデオにおける小さな動作を認識する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T21:09:18Z) - Gabriella: An Online System for Real-Time Activity Detection in
Untrimmed Security Videos [72.50607929306058]
本研究では,未トリミングされたセキュリティビデオ上でのアクティビティ検出をリアルタイムに行うオンラインシステムを提案する。
提案手法は, チューブレット抽出, 活性分類, オンラインチューブレットマージの3段階からなる。
提案手法の有効性を,100fps(100fps)と最新技術による性能評価で実証した。
論文 参考訳(メタデータ) (2020-04-23T22:20:10Z) - ZSTAD: Zero-Shot Temporal Activity Detection [107.63759089583382]
本研究では,ゼロショット時間的活動検出(ZSTAD)と呼ばれる新たなタスク設定を提案する。
このソリューションのアーキテクチャとして,R-C3Dに基づくエンドツーエンドのディープネットワークを設計する。
THUMOS14とCharadesデータセットの両方の実験は、目に見えない活動を検出するという点で有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-03-12T02:40:36Z) - Joint Visual-Temporal Embedding for Unsupervised Learning of Actions in
Untrimmed Sequences [25.299599341774204]
本稿では,共同視覚-時間埋め込み空間に基づく映像系列の教師なし学習手法を提案する。
提案手法は、連続したビデオフレームに存在する視覚的手がかりから有意義な視覚的、時間的埋め込みを提供することができることを示す。
論文 参考訳(メタデータ) (2020-01-29T22:51:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。