論文の概要: RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose
Estimation
- arxiv url: http://arxiv.org/abs/2312.07526v1
- Date: Tue, 12 Dec 2023 18:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 14:36:40.194406
- Title: RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose
Estimation
- Title(参考訳): RTMO:高性能一段階実時間マルチパーソンポーズ推定を目指して
- Authors: Peng Lu, Tao Jiang, Yining Li, Xiangtai Li, Kai Chen, Wenming Yang
- Abstract要約: RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
- 参考スコア(独自算出の注目度): 49.441241947514975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time multi-person pose estimation presents significant challenges in
balancing speed and precision. While two-stage top-down methods slow down as
the number of people in the image increases, existing one-stage methods often
fail to simultaneously deliver high accuracy and real-time performance. This
paper introduces RTMO, a one-stage pose estimation framework that seamlessly
integrates coordinate classification by representing keypoints using dual 1-D
heatmaps within the YOLO architecture, achieving accuracy comparable to
top-down methods while maintaining high speed. We propose a dynamic coordinate
classifier and a tailored loss function for heatmap learning, specifically
designed to address the incompatibilities between coordinate classification and
dense prediction models. RTMO outperforms state-of-the-art one-stage pose
estimators, achieving 1.1% higher AP on COCO while operating about 9 times
faster with the same backbone. Our largest model, RTMO-l, attains 74.8% AP on
COCO val2017 and 141 FPS on a single V100 GPU, demonstrating its efficiency and
accuracy. The code and models are available at
https://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmo.
- Abstract(参考訳): リアルタイム多人数ポーズ推定は,速度と精度のバランスにおいて大きな課題を呈する。
画像中の人の数が増えるにつれて2段階のトップダウンの手法は遅くなるが、既存の1段階の手法は高い精度とリアルタイムのパフォーマンスを同時に提供できないことが多い。
本稿では,一段階のポーズ推定フレームワークRTMOを紹介する。このフレームワークは,YOLOアーキテクチャ内の2つの1次元ヒートマップを用いてキーポイントを表現することで,座標分類をシームレスに統合する。
本研究では、座標分類と密度予測モデルの不整合に対処するために、動的座標分類器と熱マップ学習のための調整された損失関数を提案する。
RTMOは最先端のワンステージポーズ推定器より優れており、COCO上のAPは1.1%高く、同じバックボーンで約9倍速く動作している。
我々の最大のモデルであるRTMO-lは、COCO val2017で74.8%AP、単一のV100 GPUで141FPSに達し、その効率と精度を示している。
コードとモデルはhttps://github.com/open-mmlab/mmpose/tree/dev-1.x/projects/rtmoで入手できる。
関連論文リスト
- Joint Coordinate Regression and Association For Multi-Person Pose Estimation, A Pure Neural Network Approach [3.7878984912613256]
我々は、JCRA(Joint Coordinate Regression and Association)として知られる、新しい1段階から2Dポーズ推定アルゴリズムを導入する。
提案アルゴリズムは高速,高精度,有効,シンプルであり,一段階のエンドツーエンドネットワークアーキテクチャはJCRAの推論速度を大幅に向上させる。
MS COCOとCrowdPoseベンチマークの大規模な実験により、JCRAは精度と効率の両方において最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-03T13:40:20Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Efficient Adaptive Ensembling for Image Classification [3.7241274058257092]
本稿では,複雑性を増大させることなく画像分類性能を向上させる新しい手法を提案する。
データの不整合部分集合に基づいて2つの効率的なNet-b0のエンドツーエンドモデルを訓練した。
精度で平均0.5$%の精度で最先端の技術を上回りました。
論文 参考訳(メタデータ) (2022-06-15T08:55:47Z) - Rethinking Keypoint Representations: Modeling Keypoints and Poses as
Objects for Multi-Person Human Pose Estimation [79.78017059539526]
本研究では,個々のキーポイントと空間的関連キーポイント(ポーズ)の集合を,密集した単一ステージアンカーベース検出フレームワーク内のオブジェクトとしてモデル化する,新しいヒートマップフリーなキーポイント推定手法を提案する。
実験では, KAPAOは従来手法よりもはるかに高速かつ高精度であり, 熱マップ後処理に悩まされていた。
我々の大規模モデルであるKAPAO-Lは、テスト時間拡張なしでMicrosoft COCO Keypoints検証セット上で70.6のAPを達成する。
論文 参考訳(メタデータ) (2021-11-16T15:36:44Z) - ZARTS: On Zero-order Optimization for Neural Architecture Search [94.41017048659664]
微分可能なアーキテクチャサーチ (DARTS) は、NASの高効率性のため、一般的なワンショットパラダイムである。
この作業はゼロオーダーの最適化に変わり、上記の近似を強制せずに探索するための新しいNASスキームであるZARTSを提案する。
特に、12ベンチマークの結果は、DARTSの性能が低下するZARTSの顕著な堅牢性を検証する。
論文 参考訳(メタデータ) (2021-10-10T09:35:15Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - JGR-P2O: Joint Graph Reasoning based Pixel-to-Offset Prediction Network
for 3D Hand Pose Estimation from a Single Depth Image [28.753759115780515]
最先端の単一深度画像に基づく3次元手ポーズ推定法は、密集した予測に基づいている。
上記の問題に対処するために, 画素単位の予測に基づく新しい手法を提案する。
提案モデルは2次元完全畳み込みネットワークのバックボーンで実装され,約1.4Mのパラメータしか持たない。
論文 参考訳(メタデータ) (2020-07-09T08:57:19Z) - Single upper limb pose estimation method based on improved stacked
hourglass network [5.342260499725028]
一人称ポーズ推定において高精度かつリアルタイムなパフォーマンスを実現することは困難である。
本稿では,エンド・ツー・エンドアプローチに基づく一人称上肢ポーズ推定手法を提案する。
論文 参考訳(メタデータ) (2020-04-16T04:48:40Z) - Compression of descriptor models for mobile applications [26.498907514590165]
深層ニューラルネットワークにおける計算コスト,モデルサイズ,マッチング精度のトレードオフを評価する。
我々は、深度的に分離可能な層を用いることで、学習重量の顕著な冗長性を観察する。
本稿では,標準的な畳み込みと奥行き分離可能な畳み込みを補間する手段を提供する,畳み込み-Depthwise-Pointwise(CDP)層を提案する。
論文 参考訳(メタデータ) (2020-01-09T17:00:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。