論文の概要: Direct Dense Pose Estimation
- arxiv url: http://arxiv.org/abs/2204.01263v1
- Date: Mon, 4 Apr 2022 06:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 02:42:28.969274
- Title: Direct Dense Pose Estimation
- Title(参考訳): 直密姿勢推定
- Authors: Liqian Ma, Lingjie Liu, Christian Theobalt, Luc Van Gool
- Abstract要約: 複雑な人間のポーズ推定は、RGB画像と人体の表面との密接な対応を学習する問題である。
従来より密集したポーズ推定手法は、すべてMask R-CNNフレームワークに基づいており、まず各人物のバウンディングボックスを識別しようとするトップダウン方式で動作している。
そこで我々は,DDP (Direct Dense Pose) という,高密度ポーズ推定問題の解法を提案する。
- 参考スコア(独自算出の注目度): 138.56533828316833
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dense human pose estimation is the problem of learning dense correspondences
between RGB images and the surfaces of human bodies, which finds various
applications, such as human body reconstruction, human pose transfer, and human
action recognition. Prior dense pose estimation methods are all based on Mask
R-CNN framework and operate in a top-down manner of first attempting to
identify a bounding box for each person and matching dense correspondences in
each bounding box. Consequently, these methods lack robustness due to their
critical dependence on the Mask R-CNN detection, and the runtime increases
drastically as the number of persons in the image increases. We therefore
propose a novel alternative method for solving the dense pose estimation
problem, called Direct Dense Pose (DDP). DDP first predicts the instance mask
and global IUV representation separately and then combines them together. We
also propose a simple yet effective 2D temporal-smoothing scheme to alleviate
the temporal jitters when dealing with video data. Experiments demonstrate that
DDP overcomes the limitations of previous top-down baseline methods and
achieves competitive accuracy. In addition, DDP is computationally more
efficient than previous dense pose estimation methods, and it reduces jitters
when applied to a video sequence, which is a problem plaguing the previous
methods.
- Abstract(参考訳): 密度の高い人間のポーズ推定は、rgb画像と人体表面との密接な対応を学習する問題であり、人体の再構築、人間のポーズの伝達、人間の行動認識といった様々な応用を見出す。
事前の濃厚なポーズ推定手法はすべてマスクr-cnnフレームワークに基づいており、まずは各人の境界ボックスを特定し、各境界ボックス内の密接な対応を一致させようとするトップダウン方式で動作します。
その結果,Mask R-CNN検出に重大な依存があるため,これらの手法ではロバスト性が欠如しており,画像中の人物数が増加するにつれて,実行時間が大幅に増加する。
そこで本研究では,ddp (direct dense pose) と呼ばれる高密度ポーズ推定問題の解法を提案する。
DDPはまずインスタンスマスクとグローバルIUV表現を別々に予測し、それらを結合する。
また,映像データを扱う際の時間的ジッタを緩和する簡易かつ効果的な2次元時間移動スキームを提案する。
実験により、DDPは従来のトップダウンベースライン手法の限界を克服し、競争精度を向上することを示した。
さらに、DDPは従来の高密度ポーズ推定法よりも計算効率が良く、従来の手法を論じる問題であるビデオシーケンスに適用した場合のジッタを低減する。
関連論文リスト
- SEMPose: A Single End-to-end Network for Multi-object Pose Estimation [13.131534219937533]
SEMPoseは、エンドツーエンドの多目的ポーズ推定ネットワークである。
RGB画像以外の入力を必要とせずに32FPSで推論を行うことができる。
複数のオブジェクトのポーズをリアルタイムで正確に推定でき、対象オブジェクトの数の影響を受けない推論時間に影響を及ぼす。
論文 参考訳(メタデータ) (2024-11-21T10:37:54Z) - DVMNet: Computing Relative Pose for Unseen Objects Beyond Hypotheses [59.51874686414509]
現在のアプローチは、多数の離散的なポーズ仮説を持つ連続的なポーズ表現を近似している。
本稿では,DVMNet(Deep Voxel Matching Network)を提案する。
提案手法は,最先端の手法に比べて計算コストの低い新しいオブジェクトに対して,より正確なポーズ推定を行う。
論文 参考訳(メタデータ) (2024-03-20T15:41:32Z) - ORTexME: Occlusion-Robust Human Shape and Pose via Temporal Average
Texture and Mesh Encoding [35.49066795648395]
3次元の人体形状と単眼ビデオからのポーズ推定では、限定ラベル付きデータで訓練されたモデルは、閉塞のあるビデオにはうまく一般化できない。
我々は,ORTexME(Occlusion-robust temporal method, ORTexME)を紹介した。
提案手法は,1.8P-MPJPE誤り低減を実現する多人数3DPWデータセットにおいて,大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-09-21T15:50:04Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - P-STMO: Pre-Trained Spatial Temporal Many-to-One Model for 3D Human Pose
Estimation [78.83305967085413]
本稿では,2次元から3次元のポーズ推定作業のためのP-STMOモデルを提案する。
提案手法は,パラメータが少なく,計算オーバーヘッドが少なく,最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-03-15T04:00:59Z) - Bilevel Online Adaptation for Out-of-Domain Human Mesh Reconstruction [94.25865526414717]
本稿では,事前に訓練されたヒトメッシュ再構築モデルをドメイン外ストリーミングビデオに適応させるという新たな問題を検討する。
重みプローブと重み更新の2つのステップに全体多対象の最適化プロセスを分割するBilevel Online Adaptationを提案します。
BOAが2つのヒューマンメッシュ再構築ベンチマークで最先端の結果をもたらすことを実証する。
論文 参考訳(メタデータ) (2021-03-30T15:47:58Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。