論文の概要: AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos
- arxiv url: http://arxiv.org/abs/2408.02110v2
- Date: Tue, 20 Aug 2024 07:19:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 19:00:29.717401
- Title: AvatarPose: Avatar-guided 3D Pose Estimation of Close Human Interaction from Sparse Multi-view Videos
- Title(参考訳): AvatarPose:スパース・マルチビュー映像からの人間間密接な相互作用のアバターガイドによる3次元評価
- Authors: Feichi Lu, Zijian Dong, Jie Song, Otmar Hilliges,
- Abstract要約: 既存のマルチビュー手法は、複数の密接な対話の人々の3Dポーズと形状を推定する上で、しばしば課題に直面します。
個人ごとのパーソナライズされた暗黙的神経アバターを前者として活用する新しい手法を提案する。
実験により、いくつかの公開データセット上での最先端の性能を示す。
- 参考スコア(独自算出の注目度): 31.904839609743448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite progress in human motion capture, existing multi-view methods often face challenges in estimating the 3D pose and shape of multiple closely interacting people. This difficulty arises from reliance on accurate 2D joint estimations, which are hard to obtain due to occlusions and body contact when people are in close interaction. To address this, we propose a novel method leveraging the personalized implicit neural avatar of each individual as a prior, which significantly improves the robustness and precision of this challenging pose estimation task. Concretely, the avatars are efficiently reconstructed via layered volume rendering from sparse multi-view videos. The reconstructed avatar prior allows for the direct optimization of 3D poses based on color and silhouette rendering loss, bypassing the issues associated with noisy 2D detections. To handle interpenetration, we propose a collision loss on the overlapping shape regions of avatars to add penetration constraints. Moreover, both 3D poses and avatars are optimized in an alternating manner. Our experimental results demonstrate state-of-the-art performance on several public datasets.
- Abstract(参考訳): 人間のモーションキャプチャの進歩にもかかわらず、既存のマルチビュー手法は、複数の密接に相互作用する人々の3Dポーズと形状を推定する上で、しばしば課題に直面している。
この困難は、人が密接な相互作用をしているとき、閉塞や身体接触のために入手が困難である正確な2次元関節推定に依存することから生じる。
そこで本研究では,個人ごとのパーソナライズされた暗黙的ニューラルアバターを前者として活用し,この課題に対するポーズ推定作業の堅牢性と精度を大幅に向上させる手法を提案する。
具体的には、アバターはスパースマルチビュービデオからの層状ボリュームレンダリングによって効率的に再構成される。
再構成されたアバターは、色とシルエットのレンダリング損失に基づいて3Dポーズを直接最適化することができ、ノイズの多い2D検出に関連する問題を回避できる。
そこで本研究では,アバターの重なり合う形状領域における衝突損失を計算し,浸透制約を付加する手法を提案する。
さらに、3Dポーズとアバターの両方を交互に最適化する。
実験により、いくつかの公開データセット上での最先端の性能を示す。
関連論文リスト
- DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - DiffuPose: Monocular 3D Human Pose Estimation via Denoising Diffusion
Probabilistic Model [25.223801390996435]
本稿では,1つの2次元キーポイント検出から3次元ポーズを再構築することに焦点を当てた。
我々は,市販の2D検出器から多種多様な3Dポーズを効果的にサンプリングするための,拡散に基づく新しいフレームワークを構築した。
我々は,広く採用されているHuman3.6MとHumanEva-Iデータセットについて評価を行った。
論文 参考訳(メタデータ) (2022-12-06T07:22:20Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z) - Dual networks based 3D Multi-Person Pose Estimation from Monocular Video [42.01876518017639]
複数人の3Dポーズ推定はシングルポーズ推定よりも難しい。
既存のトップダウンとボトムアップのアプローチでは、推定が検出エラーに悩まされる。
我々は,トップダウンアプローチとボトムアップアプローチを統合して,その強みを活用することを提案する。
論文 参考訳(メタデータ) (2022-05-02T08:53:38Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Multi-person Implicit Reconstruction from a Single Image [37.6877421030774]
本稿では,1つの画像から複数の人物の詳細な空間的コヒーレントな再構築を実現するための新しいエンドツーエンド学習フレームワークを提案する。
既存のマルチパーソンメソッドは、モデルベースで、ゆるい服と髪の人々の正確な3dモデルをキャプチャできないことが多いという、2つの大きな欠点を抱えている。
論文 参考訳(メタデータ) (2021-04-19T13:21:55Z) - Multi-Scale Networks for 3D Human Pose Estimation with Inference Stage
Optimization [33.02708860641971]
モノクロビデオから3Dのポーズを推定することは、まだまだ難しい課題だ。
既存の多くのメソッドは、対象の人が他のオブジェクトに干渉されたり、トレーニングデータのスケールや速度に対して動きが速すぎたり、遅くなったりすると低下する。
頑健な3次元ポーズ推定のための時間的ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T15:24:28Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。