論文の概要: We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos
- arxiv url: http://arxiv.org/abs/2011.10927v1
- Date: Sun, 22 Nov 2020 03:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 09:07:19.731753
- Title: We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos
- Title(参考訳): ビデオのシングルショットアクター・アクション検出に$\colon$の提案は必要ない
- Authors: Aayush J Rana, Yogesh S Rawat
- Abstract要約: SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose SSA2D, a simple yet effective end-to-end deep network for
actor-action detection in videos. The existing methods take a top-down approach
based on region-proposals (RPN), where the action is estimated based on the
detected proposals followed by post-processing such as non-maximal suppression.
While effective in terms of performance, these methods pose limitations in
scalability for dense video scenes with a high memory requirement for thousands
of proposals. We propose to solve this problem from a different perspective
where we don't need any proposals. SSA2D is a unified network, which performs
pixel level joint actor-action detection in a single-shot, where every pixel of
the detected actor is assigned an action label. SSA2D has two main advantages:
1) It is a fully convolutional network which does not require any proposals and
post-processing making it memory as well as time efficient, 2) It is easily
scalable to dense video scenes as its memory requirement is independent of the
number of actors present in the scene. We evaluate the proposed method on the
Actor-Action dataset (A2D) and Video Object Relation (VidOR) dataset,
demonstrating its effectiveness in multiple actors and action detection in a
video. SSA2D is 11x faster during inference with comparable (sometimes better)
performance and fewer network parameters when compared with the prior works.
- Abstract(参考訳): ssa2dは,映像中のアクタ動作検出のための,単純かつ効果的なエンドツーエンドのディープネットワークである。
既存の手法では、検出された提案に基づいてアクションを推定し、次いで非最大抑圧のような後処理を行う。
性能面では有効であるが、これらの手法は数千の提案に対して高いメモリ要求を伴う高密度映像シーンのスケーラビリティに限界をもたらす。
我々は、提案が不要な異なる観点から、この問題を解決することを提案する。
ssa2dは統合ネットワークであり、シングルショットでピクセルレベルのアクター-アクション検出を行い、検出されたアクターの各ピクセルにアクションラベルを割り当てる。
SSA2Dには2つの利点がある。
1)提案や後処理が不要な完全畳み込みネットワークであり,メモリと時間効率を両立させる。
2) シーン内に存在する俳優数に依存しないメモリ要件であるため, 密集した映像シーンに容易に拡張できる。
提案手法をアクタ・アクション・データセット(a2d)とビデオ・オブジェクト・リレーション(vidor)データセットで評価し,複数のアクタにおけるその効果と映像における行動検出について検証した。
SSA2Dは推論時に、同等の性能(時にはより良い)で11倍高速で、以前の処理に比べてネットワークパラメータが少ない。
関連論文リスト
- Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - Adaptive Focus for Efficient Video Recognition [29.615394426035074]
効率的な空間適応映像認識(AdaFocus)のための強化学習手法を提案する。
タスク関連領域をローカライズするために、リカレントポリシーネットワークによって使用されるフルビデオシーケンスを迅速に処理するために、軽量のConvNetが最初に採用された。
オフライン推論の間、情報パッチシーケンスが生成されると、計算の大部分を並列に行うことができ、現代のGPUデバイスで効率的である。
論文 参考訳(メタデータ) (2021-05-07T13:24:47Z) - Zeus: Efficiently Localizing Actions in Videos using Reinforcement
Learning [8.00133208459188]
本稿では,アクションクエリに応答するビデオ分析システムZeusを紹介する。
Zeusは、入力されたビデオセグメントをアクション分類ネットワークに適応的に変更することを学ぶエージェントを訓練する。
Zeusは、精度認識報酬関数に基づいてエージェントを訓練するクエリを使用して、ユーザー指定のターゲット精度でクエリに答えることができます。
論文 参考訳(メタデータ) (2021-04-06T16:38:31Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - Context-Aware RCNN: A Baseline for Action Detection in Videos [66.16989365280938]
まず、認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを経験的に見出した。
我々はRCNNを再検討し、アクター周辺の画像パッチをトリミングおよびサイズ変更することでアクター中心のアクション認識を行う。
アクターバウンディングボックスを少し拡張し、コンテキスト機能を融合することで、パフォーマンスをさらに向上できることがわかった。
論文 参考訳(メタデータ) (2020-07-20T03:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。