論文の概要: FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic
Instance-Aware Convolutions
- arxiv url: http://arxiv.org/abs/2105.14185v1
- Date: Sat, 29 May 2021 03:24:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:16:59.609047
- Title: FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic
Instance-Aware Convolutions
- Title(参考訳): FCPose: 動的インスタンス認識の畳み込みによる完全な畳み込み型マルチパーソンポーズ推定
- Authors: Weian Mao and Zhi Tian and Xinlong Wang and Chunhua Shen
- Abstract要約: 本稿では,FCPoseと呼ばれる動的インスタンス認識の畳み込みを用いた,完全畳み込み型多人数ポーズ推定フレームワークを提案する。
FCPoseは、動的インスタンス認識キーポイント推定ヘッドによるROIとグループ化後処理を廃止する。
実験の結果,FCPoseはシンプルだが効果的な多人数ポーズ推定フレームワークであることがわかった。
- 参考スコア(独自算出の注目度): 96.72601574462549
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We propose a fully convolutional multi-person pose estimation framework using
dynamic instance-aware convolutions, termed FCPose. Different from existing
methods, which often require ROI (Region of Interest) operations and/or
grouping post-processing, FCPose eliminates the ROIs and grouping
post-processing with dynamic instance-aware keypoint estimation heads. The
dynamic keypoint heads are conditioned on each instance (person), and can
encode the instance concept in the dynamically-generated weights of their
filters. Moreover, with the strong representation capacity of dynamic
convolutions, the keypoint heads in FCPose are designed to be very compact,
resulting in fast inference and making FCPose have almost constant inference
time regardless of the number of persons in the image. For example, on the COCO
dataset, a real-time version of FCPose using the DLA-34 backbone infers about
4.5x faster than Mask R-CNN (ResNet-101) (41.67 FPS vs. 9.26FPS) while
achieving improved performance. FCPose also offers better speed/accuracy
trade-off than other state-of-the-art methods. Our experiment results show that
FCPose is a simple yet effective multi-person pose estimation framework. Code
is available at: https://git.io/AdelaiDet
- Abstract(参考訳): 動的インスタンス認識畳み込みを用いた完全畳み込み型多人数ポーズ推定フレームワークfcposeを提案する。
ROI(Region of Interest)操作や/またはグループ化後処理を必要とする既存の方法とは異なり、FCPoseはROIを排除し、動的インスタンス認識キーポイント推定ヘッドでグループ化後処理を行う。
動的キーポイントヘッドは各インスタンス(人)で条件付けされ、インスタンスの概念をフィルタの動的生成重みにエンコードすることができる。
さらに、動的畳み込みの強い表現能力により、FCPoseのキーポイントヘッドは非常にコンパクトに設計され、高速な推論が可能となり、FCPoseを画像中の人物数に関係なくほぼ一定の推論時間にすることができる。
例えば、COCOデータセットでは、DLA-34バックボーンを使用したFCPoseのリアルタイムバージョンは、パフォーマンスを改善しつつ、Mask R-CNN (ResNet-101) (41.67 FPS vs. 9.26FPS) よりも4.5倍高速である。
FCPoseは、他の最先端の方法よりも高速/高精度のトレードオフを提供する。
実験の結果,FCPoseはシンプルだが効果的な多人数ポーズ推定フレームワークであることがわかった。
コードは、https://git.io/AdelaiDet.comで入手できる。
関連論文リスト
- RTMO: Towards High-Performance One-Stage Real-Time Multi-Person Pose Estimation [46.659592045271125]
RTMOは座標分類をシームレスに統合する一段階のポーズ推定フレームワークである。
高速を維持しながらトップダウン手法に匹敵する精度を達成する。
私たちの最大のモデルであるRTMO-lは、COCO val 2017で74.8%AP、1つのV100 GPUで141FPSを実現しています。
論文 参考訳(メタデータ) (2023-12-12T18:55:29Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。