論文の概要: Coherent Reconstruction of Multiple Humans from a Single Image
- arxiv url: http://arxiv.org/abs/2006.08586v1
- Date: Mon, 15 Jun 2020 17:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 04:36:35.725491
- Title: Coherent Reconstruction of Multiple Humans from a Single Image
- Title(参考訳): 単一画像からの複数人のコヒーレントな再構築
- Authors: Wen Jiang, Nikos Kolotouros, Georgios Pavlakos, Xiaowei Zhou, Kostas
Daniilidis
- Abstract要約: 本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
- 参考スコア(独自算出の注目度): 68.3319089392548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of multi-person 3D pose estimation from
a single image. A typical regression approach in the top-down setting of this
problem would first detect all humans and then reconstruct each one of them
independently. However, this type of prediction suffers from incoherent
results, e.g., interpenetration and inconsistent depth ordering between the
people in the scene. Our goal is to train a single network that learns to avoid
these problems and generate a coherent 3D reconstruction of all the humans in
the scene. To this end, a key design choice is the incorporation of the SMPL
parametric body model in our top-down framework, which enables the use of two
novel losses. First, a distance field-based collision loss penalizes
interpenetration among the reconstructed people. Second, a depth ordering-aware
loss reasons about occlusions and promotes a depth ordering of people that
leads to a rendering which is consistent with the annotated instance
segmentation. This provides depth supervision signals to the network, even if
the image has no explicit 3D annotations. The experiments show that our
approach outperforms previous methods on standard 3D pose benchmarks, while our
proposed losses enable more coherent reconstruction in natural images. The
project website with videos, results, and code can be found at:
https://jiangwenpl.github.io/multiperson
- Abstract(参考訳): 本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
しかし、この種の予測は、例えば、シーン内の人々間の相互接続や不整合深度秩序といった、一貫性のない結果に悩まされる。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成する単一のネットワークを訓練することである。
このために、トップダウンフレームワークにSMPLパラメトリックボディモデルを組み込むことで、2つの新たな損失を発生させることができる。
第一に、距離場に基づく衝突損失は、再建された人々間の相互接続を罰する。
第2に、隠蔽に関する深い順序付けによる損失を理由として、アノテーション付きインスタンスセグメンテーションと整合したレンダリングにつながる人々の深度順序付けを促進する。
これは、イメージに明示的な3Dアノテーションがなくても、ネットワークに奥行き監視信号を提供する。
実験の結果,提案手法は従来の3次元ポーズベンチマークよりも優れており,提案手法により自然画像のコヒーレントな再構築が可能となった。
ビデオ、結果、コードを含むプロジェクトのwebサイトは、https://jiangwenpl.github.io/multiperson.com/で見ることができる。
関連論文リスト
- Neural 3D Scene Reconstruction with the Manhattan-world Assumption [58.90559966227361]
本稿では,多視点画像から3次元屋内シーンを再構築する課題について述べる。
平面的制約は、最近の暗黙の神経表現に基づく再構成手法に便利に組み込むことができる。
提案手法は, 従来の手法よりも3次元再構成品質に優れていた。
論文 参考訳(メタデータ) (2022-05-05T17:59:55Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation [75.44912541912252]
我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
論文 参考訳(メタデータ) (2021-12-24T02:43:58Z) - Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies
from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。
このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。
本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文 参考訳(メタデータ) (2021-06-22T04:26:11Z) - SMAP: Single-Shot Multi-Person Absolute 3D Pose Estimation [46.85865451812981]
本稿では,まず,この2.5D表現に基づいて,まず2.5D表現の集合を回帰し,さらに深部認識部分関連アルゴリズムを用いて3D絶対ポーズを再構成するシステムを提案する。
このような単発ボトムアップ方式により、システムは人物間の深度関係をよりよく学習し、推論し、3Dと2Dの両方のポーズ推定を改善することができる。
論文 参考訳(メタデータ) (2020-08-26T09:56:07Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。