論文の概要: Monocular, One-stage, Regression of Multiple 3D People
- arxiv url: http://arxiv.org/abs/2008.12272v4
- Date: Thu, 16 Sep 2021 11:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 08:13:16.436117
- Title: Monocular, One-stage, Regression of Multiple 3D People
- Title(参考訳): 複数の3D人物の単眼的, 一段階的回帰
- Authors: Yu Sun, Qian Bao, Wu Liu, Yili Fu, Michael J. Black, Tao Mei
- Abstract要約: 我々は、複数の3D人物(ROMP)のための1段階方式で全てのメッシュを回帰することを提案する。
本手法は,体温マップとメッシュマップを同時に予測し,画素レベルの3Dボディメッシュを共同で記述する。
最先端の手法と比較して、ROMPは挑戦的なマルチパーソンベンチマークよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 105.3143785498094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the regression of multiple 3D people from a single RGB
image. Existing approaches predominantly follow a multi-stage pipeline that
first detects people in bounding boxes and then independently regresses their
3D body meshes. In contrast, we propose to Regress all meshes in a One-stage
fashion for Multiple 3D People (termed ROMP). The approach is conceptually
simple, bounding box-free, and able to learn a per-pixel representation in an
end-to-end manner. Our method simultaneously predicts a Body Center heatmap and
a Mesh Parameter map, which can jointly describe the 3D body mesh on the pixel
level. Through a body-center-guided sampling process, the body mesh parameters
of all people in the image are easily extracted from the Mesh Parameter map.
Equipped with such a fine-grained representation, our one-stage framework is
free of the complex multi-stage process and more robust to occlusion. Compared
with state-of-the-art methods, ROMP achieves superior performance on the
challenging multi-person benchmarks, including 3DPW and CMU Panoptic.
Experiments on crowded/occluded datasets demonstrate the robustness under
various types of occlusion. The released code is the first real-time
implementation of monocular multi-person 3D mesh regression.
- Abstract(参考訳): 本稿では,単一のrgb画像から複数の3d人物の回帰について述べる。
既存のアプローチは主に、バウンディングボックス内の人々を最初に検出し、独立して3Dボディメッシュを回帰するマルチステージパイプラインに従っている。
対照的に、我々は複数の3D人物(ROMP)に対して1段階的に全てのメッシュを回帰することを提案する。
このアプローチは概念的にはシンプルで、ボックスフリーで、ピクセル単位の表現をエンドツーエンドで学習することができる。
本手法は3次元ボディメッシュを画素レベルで同時記述可能なボディセンターヒートマップとメッシュパラメータマップを同時に予測する。
体中心誘導サンプリングプロセスを通じて、画像中のすべての人の体メッシュパラメータをメッシュパラメータマップから容易に抽出する。
このような細かな表現を備えることで、我々のワンステージフレームワークは複雑な多段階プロセスから解放され、オクルージョンに対してより堅牢です。
最先端の手法と比較して、ROMPは3DPWやCMU Panopticといった挑戦的なマルチパーソンベンチマークにおいて優れた性能を発揮する。
混み/閉ざされたデータセットの実験は、様々な種類の咬合下でのロバスト性を示す。
リリースされたコードは、モノクラーマルチパーソン3Dメッシュ回帰の最初のリアルタイム実装である。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - Multi-Person 3D Pose and Shape Estimation via Inverse Kinematics and
Refinement [5.655207244072081]
モノクロRGB画像からメッシュ形状の3Dポーズと形状を推定することは困難である。
そこで本研究では, 1) 閉塞・腐食3次元骨格推定による逆運動学の利点を生かした粗粒間パイプラインを提案する。
本研究では,3DPW, MuPoTS, AGORAデータセット上での最先端の手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-10-24T18:29:06Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。