論文の概要: GHuNeRF: Generalizable Human NeRF from a Monocular Video
- arxiv url: http://arxiv.org/abs/2308.16576v2
- Date: Sun, 3 Sep 2023 02:39:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:07:23.896056
- Title: GHuNeRF: Generalizable Human NeRF from a Monocular Video
- Title(参考訳): GHuNeRF:モノクラービデオから一般提供可能な人間のNeRF
- Authors: Chen Li, Jiahao Lin, Gim Hee Lee
- Abstract要約: GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
- 参考スコア(独自算出の注目度): 63.741714198481354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we tackle the challenging task of learning a generalizable
human NeRF model from a monocular video. Although existing generalizable human
NeRFs have achieved impressive results, they require muti-view images or videos
which might not be always available. On the other hand, some works on
free-viewpoint rendering of human from monocular videos cannot be generalized
to unseen identities. In view of these limitations, we propose GHuNeRF to learn
a generalizable human NeRF model from a monocular video of the human performer.
We first introduce a visibility-aware aggregation scheme to compute vertex-wise
features, which is used to construct a 3D feature volume. The feature volume
can only represent the overall geometry of the human performer with
insufficient accuracy due to the limited resolution. To solve this, we further
enhance the volume feature with temporally aligned point-wise features using an
attention mechanism. Finally, the enhanced feature is used for predicting
density and color for each sampled point. A surface-guided sampling strategy is
also introduced to improve the efficiency for both training and inference. We
validate our approach on the widely-used ZJU-MoCap dataset, where we achieve
comparable performance with existing multi-view video based approaches. We also
test on the monocular People-Snapshot dataset and achieve better performance
than existing works when only monocular video is used.
- Abstract(参考訳): 本稿では,モノクロビデオから一般化可能なヒトNeRFモデルを学習する上での課題に取り組む。
既存の一般化可能な人間のNeRFは印象的な結果を得たが、常に利用できるとは限らないミューティビュー画像やビデオが必要である。
一方、モノクラービデオからの人間の自由視点レンダリングに関する研究は、目に見えないアイデンティティに一般化することはできない。
これらの制約を考慮し,GHuNeRFを提案し,人間の演奏者のモノクロ映像から一般化可能なNeRFモデルを学習する。
まず,3次元特徴量の構築に使用される頂点的特徴量を計算するために,可視性に着目したアグリゲーションスキームを導入する。
特徴ボリュームは、解像度が限られているため、人間のパフォーマーの全体的な形状を不十分な精度で表現できる。
これを解決するために,注意機構を用いて時間的に整列されたポイントワイドな特徴を持つボリューム機能をさらに強化する。
最後に、強化された機能は、各サンプル点の密度と色を予測するために使用される。
訓練と推論の両方の効率を改善するため、表面ガイドによるサンプリング戦略も導入された。
我々は,ZJU-MoCapデータセットに対するアプローチを検証し,既存のマルチビュービデオベースアプローチと同等のパフォーマンスを実現する。
また,単眼人スナップショットデータセット上でテストを行い,単眼映像のみを使用する場合の既存の作業よりも優れた性能を実現する。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos [10.795522875068073]
You Only Train Once (YOTO) は動的なヒューマンジェネレーションフレームワークであり、異なる動きを持つ異なる人間のアイデンティティを自由視点でレンダリングする。
本稿では,多元性自由視点レンダリングのためのフレームワークの能力を拡張するために,学習可能な識別符号のセットを提案する。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
論文 参考訳(メタデータ) (2023-03-10T10:23:17Z) - MonoNeRF: Learning a Generalizable Dynamic Radiance Field from Monocular
Videos [23.09306118872098]
フレーム間の特徴対応制約と特徴トラジェクトリによる特徴特徴とシーンフローを同時に学習するMonoNeRFを提案する。
実験の結果、MonoNeRFは複数のシーンから学習でき、シーン編集、見えないフレーム合成、高速な新規シーン適応などの新しいアプリケーションをサポートしています。
論文 参考訳(メタデータ) (2022-12-26T09:20:55Z) - HiFECap: Monocular High-Fidelity and Expressive Capture of Human
Performances [84.7225785061814]
HiFECapは、人間のポーズ、衣服、表情、手を1つのRGBビデオから同時にキャプチャする。
また, 衣服のしわの変形など, 従来の方法よりも高精度な高精度な撮影も行なっている。
論文 参考訳(メタデータ) (2022-10-11T17:57:45Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - Geometry-Guided Progressive NeRF for Generalizable and Efficient Neural
Human Rendering [139.159534903657]
我々は、高忠実度自由視点人体詳細のための一般化可能で効率的なニューラルレーダランス・フィールド(NeRF)パイプラインを開発した。
自己閉塞性を改善するため,幾何誘導型多視点機能統合手法を考案した。
高いレンダリング効率を達成するため,幾何誘導型プログレッシブレンダリングパイプラインを導入する。
論文 参考訳(メタデータ) (2021-12-08T14:42:10Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。