論文の概要: Context-Aware RCNN: A Baseline for Action Detection in Videos
- arxiv url: http://arxiv.org/abs/2007.09861v1
- Date: Mon, 20 Jul 2020 03:11:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 13:50:44.479881
- Title: Context-Aware RCNN: A Baseline for Action Detection in Videos
- Title(参考訳): コンテキスト対応RCNN:ビデオにおけるアクション検出のベースライン
- Authors: Jianchao Wu, Zhanghui Kuang, Limin Wang, Wayne Zhang, Gangshan Wu
- Abstract要約: まず、認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを経験的に見出した。
我々はRCNNを再検討し、アクター周辺の画像パッチをトリミングおよびサイズ変更することでアクター中心のアクション認識を行う。
アクターバウンディングボックスを少し拡張し、コンテキスト機能を融合することで、パフォーマンスをさらに向上できることがわかった。
- 参考スコア(独自算出の注目度): 66.16989365280938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video action detection approaches usually conduct actor-centric action
recognition over RoI-pooled features following the standard pipeline of
Faster-RCNN. In this work, we first empirically find the recognition accuracy
is highly correlated with the bounding box size of an actor, and thus higher
resolution of actors contributes to better performance. However, video models
require dense sampling in time to achieve accurate recognition. To fit in GPU
memory, the frames to backbone network must be kept low-resolution, resulting
in a coarse feature map in RoI-Pooling layer. Thus, we revisit RCNN for
actor-centric action recognition via cropping and resizing image patches around
actors before feature extraction with I3D deep network. Moreover, we found that
expanding actor bounding boxes slightly and fusing the context features can
further boost the performance. Consequently, we develop a surpringly effective
baseline (Context-Aware RCNN) and it achieves new state-of-the-art results on
two challenging action detection benchmarks of AVA and JHMDB. Our observations
challenge the conventional wisdom of RoI-Pooling based pipeline and encourage
researchers rethink the importance of resolution in actor-centric action
recognition. Our approach can serve as a strong baseline for video action
detection and is expected to inspire new ideas for this filed. The code is
available at \url{https://github.com/MCG-NJU/CRCNN-Action}.
- Abstract(参考訳): ビデオアクション検出アプローチは通常、Faster-RCNNの標準的なパイプラインに続くRoIプール機能に対してアクター中心のアクション認識を実行する。
本研究では,まず認識精度がアクターのバウンディングボックスサイズと高い相関関係があることを実証的に確認し,アクターの高解像度化がパフォーマンスの向上に寄与することを示す。
しかし、ビデオモデルは正確な認識を達成するのに時間をかけて密集したサンプリングを必要とする。
GPUメモリに適合するためには、バックボーンネットワークへのフレームの解像度を低く保ち、結果としてRoI-Pooling層に粗い特徴マップが作られる必要がある。
そこで我々は,i3d deep networkを用いた特徴抽出に先立ち,アクタまわりの画像パッチの切り抜きと再サイズを行い,アクタ中心のアクション認識のためのrcnnを再検討する。
さらに,アクターバウンディングボックスをわずかに拡張し,コンテキスト機能を融合することで,パフォーマンスをさらに向上できることがわかった。
そこで本研究では,AVA と JHMDB の2つの動作検出ベンチマークにおいて,より効果的なベースライン (Context-Aware RCNN) を構築した。
我々の観察は、従来のRoI-Poolingベースのパイプラインの知恵に挑戦し、研究者はアクター中心のアクション認識における解決の重要性を再考する。
当社のアプローチは,ビデオアクション検出の強力なベースラインとして機能し,新たなアイデアの創出が期待できる。
コードは \url{https://github.com/mcg-nju/crcnn-action} で入手できる。
関連論文リスト
- Learning Spatiotemporal Inconsistency via Thumbnail Layout for Face Deepfake Detection [41.35861722481721]
社会とサイバーセキュリティに対するディープフェイクの脅威は、重大な公衆の不安を引き起こしている。
本稿では,Thumbnail Layout(TALL)という,エレガントでシンプルだが効果的な戦略を紹介する。
TALLはビデオクリップを予め定義されたレイアウトに変換し、空間的および時間的依存関係の保存を実現する。
論文 参考訳(メタデータ) (2024-03-15T12:48:44Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - We don't Need Thousand Proposals$\colon$ Single Shot Actor-Action
Detection in Videos [0.0]
SSA2Dは、ビデオ中のアクター・アクション検出のための、シンプルだが効果的なエンド・ツー・エンドのディープ・ネットワークである。
SSA2Dは、単一ショットでピクセルレベルの共同アクターアクション検出を行う統一ネットワークである。
提案手法は,アクター・アクション・データセット(A2D)とビデオオブジェクト・リレーショナル・データセット(VidOR)で評価する。
論文 参考訳(メタデータ) (2020-11-22T03:53:40Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。