論文の概要: Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition
- arxiv url: http://arxiv.org/abs/2302.11566v1
- Date: Wed, 22 Feb 2023 18:59:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 14:11:06.095857
- Title: Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via
Self-supervised Scene Decomposition
- Title(参考訳): Vid2Avatar:自己監督型シーン分解による野生ビデオからの3次元アバター再構成
- Authors: Chen Guo, Tianjian Jiang, Xu Chen, Jie Song, Otmar Hilliges
- Abstract要約: Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。
シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
- 参考スコア(独自算出の注目度): 40.46674919612935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Vid2Avatar, a method to learn human avatars from monocular
in-the-wild videos. Reconstructing humans that move naturally from monocular
in-the-wild videos is difficult. Solving it requires accurately separating
humans from arbitrary backgrounds. Moreover, it requires reconstructing
detailed 3D surface from short video sequences, making it even more
challenging. Despite these challenges, our method does not require any
groundtruth supervision or priors extracted from large datasets of clothed
human scans, nor do we rely on any external segmentation modules. Instead, it
solves the tasks of scene decomposition and surface reconstruction directly in
3D by modeling both the human and the background in the scene jointly,
parameterized via two separate neural fields. Specifically, we define a
temporally consistent human representation in canonical space and formulate a
global optimization over the background model, the canonical human shape and
texture, and per-frame human pose parameters. A coarse-to-fine sampling
strategy for volume rendering and novel objectives are introduced for a clean
separation of dynamic human and static background, yielding detailed and robust
3D human geometry reconstructions. We evaluate our methods on publicly
available datasets and show improvements over prior art.
- Abstract(参考訳): Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。
単眼ビデオから自然に動く人間の再構築は難しい。
解決するには、人間を任意の背景から正確に分離する必要がある。
さらに、短いビデオシーケンスから詳細な3D表面を再構築する必要があるため、さらに難しい。
これらの課題にも拘わらず,本手法では,大規模な人間のスキャンデータから抽出した根本的監視や先行処理は必要とせず,外部セグメンテーションモジュールにも依存しない。
その代わりに、シーンの人間と背景の両方をモデリングし、2つの別々のニューラルネットワークを介してパラメータ化することで、シーンの分解と表面の再構築を直接3Dで行う。
具体的には、標準空間における時間的に一貫した人間の表現を定義し、背景モデル、標準人の形状とテクスチャ、フレームごとの人間のポーズパラメータを大域的に最適化する。
動的背景と静的背景をきれいに分離し, 詳細な3次元形状復元を行うために, ボリュームレンダリングと新しい目的のための粗細なサンプリング戦略を導入した。
公開データセットにおける提案手法を評価し,先行技術に対する改善を示す。
関連論文リスト
- MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - HR Human: Modeling Human Avatars with Triangular Mesh and High-Resolution Textures from Videos [52.23323966700072]
本研究では,モノクロ映像から高精細な物理材料テクスチャとメッシュを付加したアバターの取得のための枠組みを提案する。
本手法では,モノクロ映像からの情報を組み合わせて仮想多視点画像の合成を行う新しい情報融合方式を提案する。
実験により, 提案手法は, 高忠実度で従来の表現よりも優れており, この明示的な結果は共通三角形への展開をサポートすることが示された。
論文 参考訳(メタデータ) (2024-05-18T11:49:09Z) - Guess The Unseen: Dynamic 3D Scene Reconstruction from Partial 2D Glimpses [9.529416246409355]
本研究では,モノクロ映像から世界と複数の動的人間を3次元に再構成する手法を提案する。
キーとなるアイデアとして、最近出現した3Dガウススプラッティング(3D-GS)表現を通じて、世界と複数の人間の両方を表現します。
論文 参考訳(メタデータ) (2024-04-22T17:59:50Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。
我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。
後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文 参考訳(メタデータ) (2023-11-27T14:22:07Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。
我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。
実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文 参考訳(メタデータ) (2021-06-25T13:32:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。