論文の概要: Semantic-Human: Neural Rendering of Humans from Monocular Video with
Human Parsing
- arxiv url: http://arxiv.org/abs/2308.09894v1
- Date: Sat, 19 Aug 2023 03:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:17:34.819438
- Title: Semantic-Human: Neural Rendering of Humans from Monocular Video with
Human Parsing
- Title(参考訳): セマンティクス・ヒューマン:人間のパースによる単眼映像からの人間のニューラルレンダリング
- Authors: Jie Zhang, Pengcheng Shi, Zaiwang Gu, Yiyang Zhou, Zhi Wang
- Abstract要約: 本稿では,人間のニューラルレンダリングのためのフォトリアリスティックな詳細と視点一貫性を持った人間のパーシングを実現する新しい方法であるSemantic-Humanを紹介する。
具体的には、ニューラルレイディアンス場(NeRF)を拡張して、セマンティクス、外観、形状を共同で符号化し、正確な2次元セマンティクスラベルを実現する。
また,ラベルの復調,ラベルの合成,画像編集など,魅力的な応用も紹介する。
- 参考スコア(独自算出の注目度): 14.264835399504376
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The neural rendering of humans is a topic of great research significance.
However, previous works mostly focus on achieving photorealistic details,
neglecting the exploration of human parsing. Additionally, classical semantic
work are all limited in their ability to efficiently represent fine results in
complex motions. Human parsing is inherently related to radiance
reconstruction, as similar appearance and geometry often correspond to similar
semantic part. Furthermore, previous works often design a motion field that
maps from the observation space to the canonical space, while it tends to
exhibit either underfitting or overfitting, resulting in limited
generalization. In this paper, we present Semantic-Human, a novel method that
achieves both photorealistic details and viewpoint-consistent human parsing for
the neural rendering of humans. Specifically, we extend neural radiance fields
(NeRF) to jointly encode semantics, appearance and geometry to achieve accurate
2D semantic labels using noisy pseudo-label supervision. Leveraging the
inherent consistency and smoothness properties of NeRF, Semantic-Human achieves
consistent human parsing in both continuous and novel views. We also introduce
constraints derived from the SMPL surface for the motion field and
regularization for the recovered volumetric geometry. We have evaluated the
model using the ZJU-MoCap dataset, and the obtained highly competitive results
demonstrate the effectiveness of our proposed Semantic-Human. We also showcase
various compelling applications, including label denoising, label synthesis and
image editing, and empirically validate its advantageous properties.
- Abstract(参考訳): 人間の神経のレンダリングは、非常に重要な研究テーマである。
しかし、以前の研究は主に、人間の解析の探求を怠りながら、フォトリアリスティックな詳細を達成することに焦点を当てていた。
さらに、古典的意味論的な作業は、複雑な動きの細かい結果を効率的に表現する能力に制限がある。
人間のパーシングは本質的にラディアンス再構成と関係があり、類似した外観や幾何学はしばしば同様の意味の部分に対応する。
さらに、以前の研究はしばしば観測空間から標準空間にマッピングする運動場を設計するが、過度な適合または過度な適合を示す傾向があり、その結果は限定的な一般化をもたらす。
本稿では,人間のニューラルレンダリングのためのフォトリアリスティックディテールと視点一貫性を持った人間のパーシングを実現するセマンティック・ヒューマンを提案する。
具体的には,ニューラル・ラジアンス・フィールド(nerf)を拡張し,セマンティクス,外観,幾何学を共同でエンコードし,ノイズの多い擬似ラベルによる正確な2次元セマンティクスラベルを実現する。
nerfの固有の一貫性と滑らかさを生かして、セマンティクス・ヒューマンは連続的および新規なビューの両方において一貫した人間のパースを実現する。
また,回復した体積幾何学の運動場と正規化のためのSMPL曲面から導出される制約も導入する。
このモデルをZJU-MoCapデータセットを用いて評価し,提案したSemantic-Humanの有効性を示した。
また,ラベル分類,ラベル合成,画像編集など,様々な説得力のある応用例を示し,その利点を実証的に検証する。
関連論文リスト
- Label-free Neural Semantic Image Synthesis [12.194020204848492]
本稿では,事前学習した基礎モデルから抽出したニューラルネットワークレイアウトを条件付けとして,ニューラルセマンティック画像合成の概念を導入する。
ニューラルセマンティック画像合成により合成された画像が、セマンティッククラスの類似あるいは優れた画素レベルのアライメントを実現することを実験的に示す。
ニューラルレイアウト条件付けによって生成された画像は、様々な知覚タスクを訓練するための実データを効果的に増強できることを示す。
論文 参考訳(メタデータ) (2024-07-01T20:30:23Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Semantic Brain Decoding: from fMRI to conceptually similar image
reconstruction of visual stimuli [0.29005223064604074]
本稿では,意味的・文脈的類似性にも依存する脳復号法を提案する。
我々は、自然視のfMRIデータセットを使用し、人間の視覚におけるボトムアップとトップダウンの両方のプロセスの存在にインスパイアされたディープラーニングデコードパイプラインを作成します。
視覚刺激の再現は, それまでの文献において, 本来の内容とセマンティックレベルで非常によく一致し, 芸術の状態を超越している。
論文 参考訳(メタデータ) (2022-12-13T16:54:08Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - HSPACE: Synthetic Parametric Humans Animated in Complex Environments [67.8628917474705]
我々は、複雑な屋内および屋外環境に置かれたアニメーション人間による大規模な写真リアルデータセット、Human-SPACEを構築した。
年齢、性別、比率、民族性の異なる数百の個人と数百の動きとシーンを組み合わせて、100万フレームを超える最初のデータセットを生成します。
アセットは大規模に自動生成され、既存のリアルタイムレンダリングやゲームエンジンと互換性がある。
論文 参考訳(メタデータ) (2021-12-23T22:27:55Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Neural Actor: Neural Free-view Synthesis of Human Actors with Pose
Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。
提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文 参考訳(メタデータ) (2021-06-03T17:40:48Z) - Learning Compositional Radiance Fields of Dynamic Human Heads [13.272666180264485]
従来の方法のベストを組み合わせ、高分解能と高速な結果の両方を生成する新しい合成3D表現を提案します。
異なるボリュームレンダリングを用いて、人間の頭部と上半身のフォトリアリスティックなノベルビューを計算する。
本研究は,人間の頭と上半身の新たな視線を合成する手法である。
論文 参考訳(メタデータ) (2020-12-17T22:19:27Z) - Grasping Field: Learning Implicit Representations for Human Grasps [16.841780141055505]
本稿では,深層ニューラルネットワークと統合し易い人間の把握モデリングのための表現表現を提案する。
この3Dから2DマッピングをGrasping Fieldと呼び、ディープニューラルネットワークでパラメータ化し、データから学習します。
我々の生成モデルは、3Dオブジェクトポイント・クラウドにのみ適用され、高品質な人間のグリップを合成することができる。
論文 参考訳(メタデータ) (2020-08-10T23:08:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。