論文の概要: YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for
Real-time Spatio-temporal Action Detection
- arxiv url: http://arxiv.org/abs/2302.06848v2
- Date: Thu, 8 Jun 2023 01:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 19:30:18.256436
- Title: YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for
Real-time Spatio-temporal Action Detection
- Title(参考訳): YOWOv2: リアルタイム時空間行動検出のためのより強力で効率的なマルチレベル検出フレームワーク
- Authors: Jianhua Yang and Kun Dai
- Abstract要約: YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。
YOWOv2 は UCF101-24 上で 20 FPS で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。
- 参考スコア(独自算出の注目度): 4.383487861848392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing a real-time framework for the spatio-temporal action detection task
is still a challenge. In this paper, we propose a novel real-time action
detection framework, YOWOv2. In this new framework, YOWOv2 takes advantage of
both the 3D backbone and 2D backbone for accurate action detection. A
multi-level detection pipeline is designed to detect action instances of
different scales. To achieve this goal, we carefully build a simple and
efficient 2D backbone with a feature pyramid network to extract different
levels of classification features and regression features. For the 3D backbone,
we adopt the existing efficient 3D CNN to save development time. By combining
3D backbones and 2D backbones of different sizes, we design a YOWOv2 family
including YOWOv2-Tiny, YOWOv2-Medium, and YOWOv2-Large. We also introduce the
popular dynamic label assignment strategy and anchor-free mechanism to make the
YOWOv2 consistent with the advanced model architecture design. With our
improvement, YOWOv2 is significantly superior to YOWO, and can still keep
real-time detection. Without any bells and whistles, YOWOv2 achieves 87.0 %
frame mAP and 52.8 % video mAP with over 20 FPS on the UCF101-24. On the AVA,
YOWOv2 achieves 21.7 % frame mAP with over 20 FPS. Our code is available on
https://github.com/yjh0410/YOWOv2.
- Abstract(参考訳): 時空間行動検出タスクのためのリアルタイムフレームワークの設計は依然として課題である。
本稿では,新しいリアルタイム行動検出フレームワークであるyowov2を提案する。
この新しいフレームワークでは、YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。
マルチレベル検出パイプラインは、異なるスケールのアクションインスタンスを検出するように設計されている。
この目的を達成するために、我々は特徴ピラミッドネットワークを用いたシンプルで効率的な2Dバックボーンを慎重に構築し、異なるレベルの分類特徴と回帰特徴を抽出する。
3Dバックボーンには、開発時間を節約するために既存の効率的な3D CNNを採用しています。
異なるサイズの3Dバックボーンと2Dバックボーンを組み合わせることで、YOWOv2-Tiny、YOWOv2-Medium、YOWOv2-Largeを含むYOWOv2ファミリーを設計する。
また、YOWOv2を高度なモデルアーキテクチャ設計と整合させるため、人気のある動的ラベル割り当て戦略とアンカーフリー機構を導入する。
改良により、YOWOv2はYOWOよりも大幅に優れ、リアルタイム検出を継続できる。
ベルとホイッスルがなければ、YOWOv2 は UCF101-24 で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。
AVAでは、YOWOv2は21.7%のフレームmAPを獲得し、20FPSを超える。
私たちのコードはhttps://github.com/yjh0410/YOWOv2で利用可能です。
関連論文リスト
- YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition [2.3349135339114375]
YOWOv3はYOWOv2の改良版である。
YOWOv3 はパラメータや GFLOP の数を大幅に削減すると同時に、同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-05T16:48:03Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D
Object Detection [20.161887223481994]
マルチビュー3Dオブジェクト検出のための長周期モデリングフレームワークStreamPETRを提案する。
StreamPETRは、単一フレームのベースラインと比較して、無視可能なコストでのみ、大幅なパフォーマンス向上を実現している。
軽量版は45.0%のmAPと31.7のFPSを実現し、2.3%のmAPと1.8倍の高速FPSを達成している。
論文 参考訳(メタデータ) (2023-03-21T15:19:20Z) - YOWO-Plus: An Incremental Improvement [3.3555130013686014]
この技術報告では、YOWO時効検出の更新について紹介する。
我々は、3D-ResNext-101やYOLOv2を含むYOWOのオフィシャル実装と同じものを使っているが、再実装されたYOLOv2のよりトレーニング済みの重量を使用する。
YOWO-NanoはUCF101-24で90FPSの81.0%のフレームmAPと49.7%のビデオフレームmAPを達成した。
論文 参考訳(メタデータ) (2022-10-20T12:51:39Z) - CAGroup3D: Class-Aware Grouping for 3D Object Detection on Point Clouds [55.44204039410225]
本稿では,CAGroup3Dという新しい2段階完全スパース3Dオブジェクト検出フレームワークを提案する。
提案手法は,まず,オブジェクト表面のボクセル上でのクラス認識型局所群戦略を活用することによって,高品質な3D提案を生成する。
不正なボクセルワイドセグメンテーションにより欠落したボクセルの特徴を回復するために,完全にスパースな畳み込み型RoIプールモジュールを構築した。
論文 参考訳(メタデータ) (2022-10-09T13:38:48Z) - YOLOV: Making Still Image Object Detectors Great at Video Object
Detection [23.039968987772543]
映像オブジェクト検出(VID)は,映像の外観のばらつきやフレームの多様さにより困難である。
この研究は、問題に対処するための単純だが効果的な戦略を提案する。
我々のYOLOXベースのモデルは、有望なパフォーマンスを達成することができる(例えば、1つの2080Ti GPU上のImageNet VIDデータセット上で、30FPS以上の87.5% AP50)。
論文 参考訳(メタデータ) (2022-08-20T14:12:06Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - PV-RCNN++: Point-Voxel Feature Set Abstraction With Local Vector
Representation for 3D Object Detection [100.60209139039472]
点雲からの正確な3次元検出を行うために,PointVoxel Region based Convolution Neural Networks (PVRCNNs)を提案する。
提案するPV-RCNNは,Openデータセットと高競争性KITTIベンチマークの両方において,従来の最先端3D検出方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-01-31T14:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。