論文の概要: YOWO-Plus: An Incremental Improvement
- arxiv url: http://arxiv.org/abs/2210.11219v1
- Date: Thu, 20 Oct 2022 12:51:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 15:07:55.459029
- Title: YOWO-Plus: An Incremental Improvement
- Title(参考訳): YOWO-Plus: 漸進的な改善
- Authors: Jianhua Yang
- Abstract要約: この技術報告では、YOWO時効検出の更新について紹介する。
我々は、3D-ResNext-101やYOLOv2を含むYOWOのオフィシャル実装と同じものを使っているが、再実装されたYOLOv2のよりトレーニング済みの重量を使用する。
YOWO-NanoはUCF101-24で90FPSの81.0%のフレームmAPと49.7%のビデオフレームmAPを達成した。
- 参考スコア(独自算出の注目度): 3.3555130013686014
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this technical report, we would like to introduce our updates to YOWO, a
real-time method for spatio-temporal action detection. We make a bunch of
little design changes to make it better. For network structure, we use the same
ones of official implemented YOWO, including 3D-ResNext-101 and YOLOv2, but we
use a better pretrained weight of our reimplemented YOLOv2, which is better
than the official YOLOv2. We also optimize the label assignment used in YOWO.
To accurately detection action instances, we deploy GIoU loss for box
regression. After our incremental improvement, YOWO achieves 84.9\% frame mAP
and 50.5\% video mAP on the UCF101-24, significantly higher than the official
YOWO. On the AVA, our optimized YOWO achieves 20.6\% frame mAP with 16 frames,
also exceeding the official YOWO. With 32 frames, our YOWO achieves 21.6 frame
mAP with 25 FPS on an RTX 3090 GPU. We name the optimized YOWO as YOWO-Plus.
Moreover, we replace the 3D-ResNext-101 with the efficient 3D-ShuffleNet-v2 to
design a lightweight action detector, YOWO-Nano. YOWO-Nano achieves 81.0 \%
frame mAP and 49.7\% video frame mAP with over 90 FPS on the UCF101-24. It also
achieves 18.4 \% frame mAP with about 90 FPS on the AVA. As far as we know,
YOWO-Nano is the fastest state-of-the-art action detector. Our code is
available on https://github.com/yjh0410/PyTorch_YOWO.
- Abstract(参考訳): 本技術報告では,時空間行動検出のリアルタイム手法であるYOWOの更新について紹介する。
私たちは改善するために、小さなデザイン変更をたくさん行います。
ネットワーク構造には3D-ResNext-101やYOLOv2を含むYOWOと同じものを使用しますが、実装済みのYOLOv2の事前学習重量は、YOLOv2よりも優れています。
また,YOWOにおけるラベル割り当てを最適化する。
アクションインスタンスを正確に検出するために、ボックス回帰のためのGIoU損失をデプロイする。
インクリメンタルな改善の後、YOWOは公式のYOWOよりもかなり高い84.9\%のフレームmAPと50.5\%の動画mAPをUCF101-24で達成した。
AVAでは、最適化されたYOWOは、公式YOWOを超える16フレームの20.6\%のフレームmAPを達成する。
32フレームのYOWOでは、RTX 3090 GPU上で25FPSの21.6フレームのmAPを実現しています。
最適化されたYOWOをYOWO-Plusと呼ぶ。
さらに、3D-ResNext-101を効率的な3D-ShuffleNet-v2に置き換え、軽量なアクション検出器YOWO-Nanoを設計する。
YOWO-Nano は UCF101-24 上で 90 FPS 以上の 81.0 \% フレーム mAP と 49.7\% ビデオフレーム mAP を達成する。
また、AVAで約90 FPSの18.4 \%のフレームmAPを達成している。
我々が知る限り、yowo-nanoは最先端のアクション検出器だ。
私たちのコードはhttps://github.com/yjh0410/PyTorch_YOWOで利用可能です。
関連論文リスト
- YOWOv3: An Efficient and Generalized Framework for Human Action Detection and Recognition [2.3349135339114375]
YOWOv3はYOWOv2の改良版である。
YOWOv3 はパラメータや GFLOP の数を大幅に削減すると同時に、同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-08-05T16:48:03Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - UniPAD: A Universal Pre-training Paradigm for Autonomous Driving [74.34701012543968]
3次元微分レンダリングを応用した新しい自己教師型学習パラダイムUniPADを提案する。
UniPADは暗黙的に3D空間を符号化し、連続した3D形状の構造の再構築を容易にする。
本手法はライダーカメラ,カメラカメラ,ライダーカメラベースラインを9.1,7.7,6.9 NDSで大幅に改善する。
論文 参考訳(メタデータ) (2023-10-12T14:39:58Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - YOWOv2: A Stronger yet Efficient Multi-level Detection Framework for
Real-time Spatio-temporal Action Detection [4.383487861848392]
YOWOv2は3Dバックボーンと2Dバックボーンの両方を利用して正確なアクション検出を行う。
YOWOv2 は UCF101-24 上で 20 FPS で 87.0 % のフレーム mAP と 52.8 % のビデオ mAP を達成する。
論文 参考訳(メタデータ) (2023-02-14T05:52:45Z) - Fast-BEV: A Fast and Strong Bird's-Eye View Perception Baseline [76.48192454417138]
Bird's-Eye View (BEV)の表現は、次世代自動運転車(AV)の認識の基礎として期待されている。
本稿では,車載チップ上で高速なBEV認識を実現するフレームワークであるFast-BEVを提案する。
論文 参考訳(メタデータ) (2023-01-29T18:43:31Z) - YOLOv6 v3.0: A Full-Scale Reloading [9.348857966505111]
ネットワークアーキテクチャとトレーニングスキームに関して,多数の新たな拡張を施したYOLOv6を更新する。
YOLOv6-Nは、NVIDIA Tesla T4 GPUでテストされた1187 FPSのスループットでCOCOデータセットで37.5%APに達した。
YOLOv6-Sは484 FPSで45.0%のAPを攻撃し、他の主流検出器よりも高速である。
論文 参考訳(メタデータ) (2023-01-13T14:46:46Z) - YOLOv6: A Single-Stage Object Detection Framework for Industrial
Applications [16.047499394184985]
YOLOv6-Nは、NVIDIA Tesla T4 GPU上で1234 FPSのスループットでCOCOデータセットで35.9%APに達する。
YOLOv6-S は 495 FPS で 43.5% AP を攻撃し、他の主流検出器を同じ規模で上回っている。
YOLOv6-M/Lは、同様の推論速度を持つ他の検出器よりも精度(49.5%/52.3%)が高い。
論文 参考訳(メタデータ) (2022-09-07T07:47:58Z) - Workshop on Autonomous Driving at CVPR 2021: Technical Report for
Streaming Perception Challenge [57.647371468876116]
本稿では,現実的な自律運転シナリオのためのリアルタイム2次元物体検出システムについて紹介する。
私たちの検出器は、YOLOXと呼ばれる新しい設計のYOLOモデルで構築されています。
Argoverse-HDデータセットでは,検出のみのトラック/トラックで2位を7.8/6.1上回る41.0ストリーミングAPを達成した。
論文 参考訳(メタデータ) (2021-07-27T06:36:06Z) - YOLOX: Exceeding YOLO Series in 2021 [25.734980783220976]
我々は、YOLO検出器をアンカーフリーに切り換え、他の高度な検出技術を実行する。
0.91Mパラメータと1.08G FLOPしか持たないYOLO-Nanoでは、COCOで25.3%のAPが取得でき、NanoDetを1.8%上回っている。
YOLOv4-CSP, YOLOv5-Lとほぼ同じパラメータを持つYOLOX-Lでは、Tesla V100で68.9 FPSの速度でCOCOで50.0%APを達成する。
論文 参考訳(メタデータ) (2021-07-18T12:55:11Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。