論文の概要: YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition
- arxiv url: http://arxiv.org/abs/2408.02623v1
- Date: Mon, 5 Aug 2024 16:48:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 12:56:48.541083
- Title: YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition
- Title(参考訳): YOWOv3: 人間の行動検出と認識のための効率的で汎用的なフレームワーク
- Authors: Duc Manh Nguyen Dang, Viet Hang Duong, Jia Ching Wang, Nhan Bui Duc,
- Abstract要約: YOWOv3はYOWOv2の改良版である。
YOWOv3 はパラメータや GFLOP の数を大幅に削減すると同時に、同等のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 2.3349135339114375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new framework called YOWOv3, which is an improved version of YOWOv2, designed specifically for the task of Human Action Detection and Recognition. This framework is designed to facilitate extensive experimentation with different configurations and supports easy customization of various components within the model, reducing efforts required for understanding and modifying the code. YOWOv3 demonstrates its superior performance compared to YOWOv2 on two widely used datasets for Human Action Detection and Recognition: UCF101-24 and AVAv2.2. Specifically, the predecessor model YOWOv2 achieves an mAP of 85.2% and 20.3% on UCF101-24 and AVAv2.2, respectively, with 109.7M parameters and 53.6 GFLOPs. In contrast, our model - YOWOv3, with only 59.8M parameters and 39.8 GFLOPs, achieves an mAP of 88.33% and 20.31% on UCF101-24 and AVAv2.2, respectively. The results demonstrate that YOWOv3 significantly reduces the number of parameters and GFLOPs while still achieving comparable performance.
- Abstract(参考訳): 本稿では,YOWOv2の改良版であるYOWOv3を提案する。
このフレームワークは、異なる構成での広範な実験を容易にするように設計されており、モデル内の様々なコンポーネントのカスタマイズを容易にサポートし、コードの理解と修正に必要な労力を減らす。
YOWOv3は、UCF101-24とAVAv2.2という2つの広く使われている人間の行動検出と認識のためのデータセットにおいて、YOWOv2よりも優れたパフォーマンスを示している。
具体的には、前モデルのYOWOv2は、UCF101-24とAVAv2.2でそれぞれ85.2%と20.3%のmAPを獲得し、109.7Mパラメータと53.6 GFLOPを持つ。
対照的に、59.8Mパラメータと39.8 GFLOPしか持たないYOWOv3は、UCF101-24とAVAv2.2でそれぞれ88.33%と20.31%のmAPを達成する。
その結果、YOWOv3はパラメータやGFLOPの数を著しく削減しつつ、同等のパフォーマンスを実現していることがわかった。
関連論文リスト
- Evaluating the Evolution of YOLO (You Only Look Once) Models: A Comprehensive Benchmark Study of YOLO11 and Its Predecessors [0.0]
本研究では,YOLOv3から最新のYOLO11まで,YOLO(You Only Look Once)アルゴリズムのベンチマーク解析を行った。
トラフィックシグネチャ(さまざまなオブジェクトサイズを持つ)、アフリカ野生生物(多彩なアスペクト比と画像当たりのオブジェクトの少なくとも1つのインスタンス)、および船と船舶(単一のクラスの小さなオブジェクトを持つ)の3つの多様なデータセットでパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-10-31T20:45:00Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for
Real-time Spatio-temporal Action Detection [4.383487861848392]
YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。
YOWOv2 は UCF101-24 上で 20 FPS で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。
論文 参考訳(メタデータ) (2023-02-14T05:52:45Z) - YOWO-Plus: An Incremental Improvement [3.3555130013686014]
この技術報告では、YOWO時効検出の更新について紹介する。
我々は、3D-ResNext-101やYOLOv2を含むYOWOのオフィシャル実装と同じものを使っているが、再実装されたYOLOv2のよりトレーニング済みの重量を使用する。
YOWO-NanoはUCF101-24で90FPSの81.0%のフレームmAPと49.7%のビデオフレームmAPを達成した。
論文 参考訳(メタデータ) (2022-10-20T12:51:39Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z) - ERNIE-SPARSE: Learning Hierarchical Efficient Transformer Through
Regularized Self-Attention [48.697458429460184]
情報ボトルネック感度と異なる注目トポロジ間の不整合の2つの要因がスパース変換器の性能に影響を及ぼす可能性がある。
本稿では,ERNIE-Sparseというモデルを提案する。
i) 局所情報とグローバル情報を逐次統一する階層スパース変換器(HST) と、(ii) 注意トポロジの異なる変換器の距離を最小化する自己注意正規化(SAR) の2つの特徴がある。
論文 参考訳(メタデータ) (2022-03-23T08:47:01Z) - PP-PicoDet: A Better Real-Time Object Detector on Mobile Devices [13.62426382827205]
実時間物体検出器のPP-PicoDetファミリは,モバイルデバイスの物体検出において優れた性能を発揮する。
モデルは、他の一般的なモデルと比較して、精度とレイテンシのトレードオフを改善する。
論文 参考訳(メタデータ) (2021-11-01T12:53:17Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。