論文の概要: Neural Capture of Animatable 3D Human from Monocular Video
- arxiv url: http://arxiv.org/abs/2208.08728v1
- Date: Thu, 18 Aug 2022 09:20:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 13:39:08.835926
- Title: Neural Capture of Animatable 3D Human from Monocular Video
- Title(参考訳): 単眼映像からのアニマタブル3次元人間のニューラルキャプチャ
- Authors: Gusi Te, Xiu Li, Xiao Li, Jinglu Wang, Wei Hu, Yan Lu
- Abstract要約: 本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュをベースとしたパラメトリックな3次元人体モデルを用いた動的ニューラルレージアンス場(NeRF)に基づく。
- 参考スコア(独自算出の注目度): 38.974181971541846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel paradigm of building an animatable 3D human representation
from a monocular video input, such that it can be rendered in any unseen poses
and views. Our method is based on a dynamic Neural Radiance Field (NeRF) rigged
by a mesh-based parametric 3D human model serving as a geometry proxy. Previous
methods usually rely on multi-view videos or accurate 3D geometry information
as additional inputs; besides, most methods suffer from degraded quality when
generalized to unseen poses. We identify that the key to generalization is a
good input embedding for querying dynamic NeRF: A good input embedding should
define an injective mapping in the full volumetric space, guided by surface
mesh deformation under pose variation. Based on this observation, we propose to
embed the input query with its relationship to local surface regions spanned by
a set of geodesic nearest neighbors on mesh vertices. By including both
position and relative distance information, our embedding defines a
distance-preserved deformation mapping and generalizes well to unseen poses. To
reduce the dependency on additional inputs, we first initialize per-frame 3D
meshes using off-the-shelf tools and then propose a pipeline to jointly
optimize NeRF and refine the initial mesh. Extensive experiments show our
method can synthesize plausible human rendering results under unseen poses and
views.
- Abstract(参考訳): 本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュ型パラメトリック3次元人体モデルによる動的神経放射場(nerf)を基盤とし,幾何プロキシとして機能する。
従来の方法は、通常、追加の入力としてマルチビュービデオや正確な3D幾何学情報に頼っている。
動的NeRFを問合せするためには, 一般化の鍵が良い入力埋め込みであることを確認する: 優れた入力埋め込みは, フルボリューム空間における射影写像を定義するべきである。
そこで本研究では,メッシュ頂点上の測地線近傍の群にまたがる局所表面領域との関係について,入力クエリを組み込む手法を提案する。
位置情報と相対距離情報の両方を含めることで,距離保存された変形マッピングを定義し,見当たらないポーズにうまく一般化する。
追加入力への依存性を低減するため、まずオフザシェルフツールを使用してフレーム単位の3Dメッシュを初期化し、NeRFを共同最適化して初期メッシュを洗練するためのパイプラインを提案する。
広汎な実験により,本手法は見知らぬポーズやビューの下で,可塑性な人体レンダリング結果を合成できることが示された。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - Differentiable Blocks World: Qualitative 3D Decomposition by Rendering
Primitives [70.32817882783608]
本稿では,3次元プリミティブを用いて,シンプルでコンパクトで動作可能な3次元世界表現を実現する手法を提案する。
既存の3次元入力データに依存するプリミティブ分解法とは異なり,本手法は画像を直接操作する。
得られたテクスチャ化されたプリミティブは入力画像を忠実に再構成し、視覚的な3Dポイントを正確にモデル化する。
論文 参考訳(メタデータ) (2023-07-11T17:58:31Z) - Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - DC-GNet: Deep Mesh Relation Capturing Graph Convolution Network for 3D
Human Shape Reconstruction [1.290382979353427]
本稿では,3次元形状復元のための形状補完タスクを備えたディープメッシュ・リレーション・キャプチャーグラフ・コンボリューション・ネットワーク(DC-GNet)を提案する。
我々のアプローチは、より遠い領域のノード間のより微妙な関係からメッシュ構造を符号化する。
形状完了モジュールは,屋外シーンの性能劣化問題を軽減する。
論文 参考訳(メタデータ) (2021-08-27T16:43:32Z) - Pose2Mesh: Graph Convolutional Network for 3D Human Pose and Mesh
Recovery from a 2D Human Pose [70.23652933572647]
本稿では,人間のメッシュ頂点の3次元座標を直接推定するグラフ畳み込みニューラルネットワーク(GraphCNN)を提案する。
我々のPose2Meshは、様々なベンチマークデータセットにおいて、以前の3次元人間のポーズとメッシュ推定方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-08-20T16:01:56Z) - Combining Implicit Function Learning and Parametric Models for 3D Human
Reconstruction [123.62341095156611]
深層学習近似として表される暗黙の関数は、3次元曲面の再構成に強力である。
このような機能は、コンピュータグラフィックスとコンピュータビジョンの両方に柔軟なモデルを構築するのに不可欠である。
詳細に富んだ暗黙関数とパラメトリック表現を組み合わせた方法論を提案する。
論文 参考訳(メタデータ) (2020-07-22T13:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。