論文の概要: Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering
- arxiv url: http://arxiv.org/abs/2109.07448v1
- Date: Wed, 15 Sep 2021 17:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 14:51:37.538573
- Title: Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering
- Title(参考訳): ニューラルヒューマンパフォーマー:人間のパフォーマンスレンダリングのための一般化されたラミアンスフィールドの学習
- Authors: Youngjoong Kwon and Dahun Kim and Duygu Ceylan and Henry Fuchs
- Abstract要約: 本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
- 参考スコア(独自算出の注目度): 34.80975358673563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we aim at synthesizing a free-viewpoint video of an arbitrary
human performance using sparse multi-view cameras. Recently, several works have
addressed this problem by learning person-specific neural radiance fields
(NeRF) to capture the appearance of a particular human. In parallel, some work
proposed to use pixel-aligned features to generalize radiance fields to
arbitrary new scenes and objects. Adopting such generalization approaches to
humans, however, is highly challenging due to the heavy occlusions and dynamic
articulations of body parts. To tackle this, we propose Neural Human Performer,
a novel approach that learns generalizable neural radiance fields based on a
parametric human body model for robust performance capture. Specifically, we
first introduce a temporal transformer that aggregates tracked visual features
based on the skeletal body motion over time. Moreover, a multi-view transformer
is proposed to perform cross-attention between the temporally-fused features
and the pixel-aligned features at each time step to integrate observations on
the fly from multiple views. Experiments on the ZJU-MoCap and AIST datasets
show that our method significantly outperforms recent generalizable NeRF
methods on unseen identities and poses. The video results and code are
available at https://youngjoongunc.github.io/nhp.
- Abstract(参考訳): 本稿では、スパースマルチビューカメラを用いて、任意の人間のパフォーマンスの視点映像を合成することを目的とする。
近年,nerf(person-specific neural radiance fields)を学習し,人間の出現を捉えることでこの問題に対処した研究がいくつか行われている。
並行して、ピクセルアライメント機能を使用して、任意の新しいシーンやオブジェクトにラミアンスフィールドを一般化する方法も提案されている。
しかしながら、そのような一般化アプローチを人間に適用することは、重い閉塞と身体部分のダイナミックな明瞭さのために非常に困難である。
この課題を解決するために,我々は,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能な神経放射場を学習するニューラルヒューマン・パフォーマを提案する。
具体的には,まず,追跡された視覚特徴を経時的骨格運動に基づいて集約する時空変圧器を導入する。
さらに,複数視点からのハエの観測を統合させるため,時間差のある特徴と画素対応特徴とを相互に関連付けるためにマルチビュートランスフォーマーを提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
ビデオの結果とコードはhttps://youngjoongunc.github.io/nhpで入手できる。
関連論文リスト
- GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-08-31T09:19:06Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - Generalizable Neural Performer: Learning Robust Radiance Fields for
Human Novel View Synthesis [52.720314035084215]
この研究は、一般のディープラーニングフレームワークを使用して、任意の人間の演奏者の自由視点画像を合成することを目的としている。
我々は、汎用的で堅牢な神経体表現を学習するシンプルな、かつ強力なフレームワーク、Generalizable Neural Performer(GNR)を提案する。
GeneBody-1.0とZJU-Mocapの実験は、最近の最先端の一般化可能な手法よりも、我々の手法の堅牢性を示している。
論文 参考訳(メタデータ) (2022-04-25T17:14:22Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - HumanNeRF: Generalizable Neural Human Radiance Field from Sparse Inputs [35.77939325296057]
最近のニューラルヒューマン表現は高品質なマルチビューレンダリングを生成することができるが、高密度なマルチビュー入力と高価なトレーニングが必要である。
我々は、動的人間の高忠実度自由視点合成のための、一般化可能なニューラル表現であるHumanNeRFを提案する。
論文 参考訳(メタデータ) (2021-12-06T05:22:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。