論文の概要: A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering
- arxiv url: http://arxiv.org/abs/2102.06199v1
- Date: Thu, 11 Feb 2021 18:58:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 14:05:24.943784
- Title: A-NeRF: Surface-free Human 3D Pose Refinement via Neural Rendering
- Title(参考訳): A-NeRF: ニューラルレンダリングによる表面のないヒト3次元ポース精製
- Authors: Shih-Yang Su, Frank Yu, Michael Zollhoefer and Helge Rhodin
- Abstract要約: 本稿では,自己教師型でユーザの体積体モデルを学習する単眼モーションキャプチャのためのテスト時間最適化手法を提案する。
我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。
本研究では, 識別的ポーズ推定手法と表面自由解析-合成による識別的ポーズ推定手法の組み合わせが, 純粋に識別的ポーズ推定手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 13.219688351773422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning has reshaped the classical motion capture pipeline,
generative, analysis-by-synthesis elements are still in use to recover fine
details if a high-quality 3D model of the user is available. Unfortunately,
obtaining such a model for every user a priori is challenging, time-consuming,
and limits the application scenarios. We propose a novel test-time optimization
approach for monocular motion capture that learns a volumetric body model of
the user in a self-supervised manner. To this end, our approach combines the
advantages of neural radiance fields with an articulated skeleton
representation. Our proposed skeleton embedding serves as a common reference
that links constraints across time, thereby reducing the number of required
camera views from traditionally dozens of calibrated cameras, down to a single
uncalibrated one. As a starting point, we employ the output of an off-the-shelf
model that predicts the 3D skeleton pose. The volumetric body shape and
appearance is then learned from scratch, while jointly refining the initial
pose estimate. Our approach is self-supervised and does not require any
additional ground truth labels for appearance, pose, or 3D shape. We
demonstrate that our novel combination of a discriminative pose estimation
technique with surface-free analysis-by-synthesis outperforms purely
discriminative monocular pose estimation approaches and generalizes well to
multiple views.
- Abstract(参考訳): ディープラーニングは古典的なモーションキャプチャパイプラインを再構成しましたが、ユーザーの高品質の3Dモデルが利用可能であれば、生成的、分析による合成要素がまだ詳細を回復するために使用されています。
残念ながら、すべてのユーザに対してそのようなモデルを取得することは困難で、時間がかかり、アプリケーションのシナリオが制限される。
本稿では,ユーザの体積体モデルを自己教師あり方式で学習する単眼運動キャプチャのための新しいテスト時間最適化手法を提案する。
この目的のために,本手法では,神経放射場と構音骨格表現の利点を組み合わせる。
提案する骨格組込みは,制約を時間にわたって関連付ける共通参照として機能するので,従来の数十台の校正カメラから必要なカメラビューを1つに減らすことができる。
出発点として、3Dスケルトンポーズを予測するオフ・ザ・シェルフモデルの出力を用いる。
その後、容積体の形状と外観をスクラッチから学習し、初期ポーズ推定を共同で修正する。
我々のアプローチは自己監督的であり、外観、ポーズ、および3D形状のための追加の真実ラベルを必要としない。
本研究では,表面非合成解析を用いた判別的ポーズ推定手法が,純粋に識別的単眼的ポーズ推定手法を上回り,複数の視点によく一般化することを示す。
関連論文リスト
- PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - S3O: A Dual-Phase Approach for Reconstructing Dynamic Shape and Skeleton of Articulated Objects from Single Monocular Video [13.510513575340106]
単一の単眼映像から動的に調音された物体を再構成することは困難であり、限られた視点から形状、動き、カメラパラメータを共同で推定する必要がある。
可視形状や下層の骨格を含むパラメトリックモデルを効率的に学習する新しい2相法であるS3Oを提案する。
標準ベンチマークとPlanetZooデータセットの実験により、S3Oはより正確な3D再構成と可塑性骨格を提供し、最先端技術と比較してトレーニング時間を約60%短縮することを確認した。
論文 参考訳(メタデータ) (2024-05-21T09:01:00Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Personalized 3D Human Pose and Shape Refinement [19.082329060985455]
回帰に基づく手法は3次元人間のポーズと形状推定の分野を支配してきた。
本稿では,初期人間のモデル推定値と対応する画像との密接な対応性を構築することを提案する。
提案手法は画像モデルアライメントの改善だけでなく,3次元精度の向上にも寄与する。
論文 参考訳(メタデータ) (2024-03-18T10:13:53Z) - Enhanced Spatio-Temporal Context for Temporally Consistent Robust 3D
Human Motion Recovery from Monocular Videos [5.258814754543826]
本稿では,モノクロ映像からの時間的一貫した動き推定手法を提案する。
汎用的なResNetのような機能を使う代わりに、本手法ではボディ認識機能表現と独立したフレーム単位のポーズを使用する。
提案手法は, 高速化誤差を著しく低減し, 既存の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2023-11-20T10:53:59Z) - NPC: Neural Point Characters from Video [21.470471345454524]
高忠実な人間の3Dモデルは、ビデオから直接学ぶことができる。
以前の方法はテンプレートの使用を避けるが、観測から標準空間への高コストあるいは不適切なマッピングに依存していた。
アニマタブルな文字を再構成するためのハイブリッドなポイントベース表現を提案する。
論文 参考訳(メタデータ) (2023-04-04T17:59:22Z) - SAOR: Single-View Articulated Object Reconstruction [17.2716639564414]
野生で撮影された単一画像から3次元形状, テクスチャ, 視点を推定するための新しいアプローチであるSAORを紹介する。
事前に定義されたカテゴリ固有の3Dテンプレートや調整された3Dスケルトンに依存する従来のアプローチとは異なり、SAORは3Dオブジェクトの形状を事前に必要とせずに、スケルトンフリーのパーツベースモデルで単一ビューイメージコレクションから形状を明瞭化することを学ぶ。
論文 参考訳(メタデータ) (2023-03-23T17:59:35Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z) - Kinematic-Structure-Preserved Representation for Unsupervised 3D Human
Pose Estimation [58.72192168935338]
大規模インスタディオデータセットの監視を用いて開発された人間のポーズ推定モデルの一般化可能性については疑問が残る。
本稿では,2対あるいは2対の弱い監督者によって抑制されない,新しいキネマティック構造保存型非教師付き3次元ポーズ推定フレームワークを提案する。
提案モデルでは,前方運動学,カメラ投影,空間マップ変換という3つの連続的な微分可能変換を用いる。
論文 参考訳(メタデータ) (2020-06-24T23:56:33Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。