論文の概要: SG-GS: Photo-realistic Animatable Human Avatars with Semantically-Guided Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2408.09665v1
- Date: Mon, 19 Aug 2024 02:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:44:03.266172
- Title: SG-GS: Photo-realistic Animatable Human Avatars with Semantically-Guided Gaussian Splatting
- Title(参考訳): SG-GS:感性誘導型ガウススプラッティングによる光リアルアニマタブルヒトアバター
- Authors: Haoyu Zhao, Chen Yang, Hao Wang, Xingyue Zhao, Wei Shen,
- Abstract要約: 本研究では,SG-GSを提案する。SG-GSは3次元ガウスのセマンティックス埋め込み,骨格駆動型剛性変形,および非剛性布の動的変形を用いて,モノクロビデオからフォトリアリスティックアニマタブルな人体アバターを作成する。
また,人間のアバター変形に対する幾何学的および意味的関連性を統合する3次元ネットワークを提案する。
- 参考スコア(独自算出の注目度): 18.421585526595944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing photo-realistic animatable human avatars from monocular videos remains challenging in computer vision and graphics. Recently, methods using 3D Gaussians to represent the human body have emerged, offering faster optimization and real-time rendering. However, due to ignoring the crucial role of human body semantic information which represents the intrinsic structure and connections within the human body, they fail to achieve fine-detail reconstruction of dynamic human avatars. To address this issue, we propose SG-GS, which uses semantics-embedded 3D Gaussians, skeleton-driven rigid deformation, and non-rigid cloth dynamics deformation to create photo-realistic animatable human avatars from monocular videos. We then design a Semantic Human-Body Annotator (SHA) which utilizes SMPL's semantic prior for efficient body part semantic labeling. The generated labels are used to guide the optimization of Gaussian semantic attributes. To address the limited receptive field of point-level MLPs for local features, we also propose a 3D network that integrates geometric and semantic associations for human avatar deformation. We further implement three key strategies to enhance the semantic accuracy of 3D Gaussians and rendering quality: semantic projection with 2D regularization, semantic-guided density regularization and semantic-aware regularization with neighborhood consistency. Extensive experiments demonstrate that SG-GS achieves state-of-the-art geometry and appearance reconstruction performance.
- Abstract(参考訳): モノクラービデオからフォトリアリスティックなアニマタブルな人間のアバターを再構築することは、コンピュータビジョンとグラフィックスにおいて依然として困難である。
近年,人体を表現するために3Dガウス法が登場し,より高速な最適化とリアルタイムレンダリングが可能となった。
しかし、本質的な構造と人体内のつながりを表す人体意味情報の重要な役割を無視するため、動的な人体アバターの微細な再構築には至らなかった。
この問題に対処するために,SG-GSを提案する。SG-GSは3次元ガウスアン,骨格駆動型剛性変形,および非剛性布の動的変形を用いて,モノクロビデオからフォトリアリスティックアニマタブルな人間のアバターを生成する。
次に,SMPLのセマンティック・アノテータを用いたセマンティック・ヒューマン・ボディ・アノテータ(SHA)を設計し,効率的なボディ部分のセマンティック・ラベリングを行う。
生成されたラベルはガウス意味属性の最適化を導くために使用される。
局所特徴量に対する点レベルMLPの受容領域の制限に対処するために,人間のアバター変形に対する幾何学的および意味的関連性を統合する3Dネットワークを提案する。
さらに、3次元ガウスのセマンティックな精度とレンダリング品質を高めるための3つの重要な戦略を実装した:2次元正規化を伴うセマンティックプロジェクション、セマンティック誘導密度正規化、および近隣の一貫性を伴うセマンティック認識正規化。
大規模な実験により,SG-GSは最先端の幾何学と外観復元性能を達成することが示された。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Gaussian Control with Hierarchical Semantic Graphs in 3D Human Recovery [15.58274601909995]
高忠実度3次元再構成を実現するための階層型人ガウス制御(HUGS)フレームワークを提案する。
我々のアプローチは、幾何学的トポロジーの整合性を確保するために、身体部分の明示的な意味的先行性を活用することである。
本手法は, 人体再建における優れた性能, 特に表面の細部を向上し, 体部接合部を正確に再構築する上での優れた性能を示す。
論文 参考訳(メタデータ) (2024-05-21T03:40:56Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z) - THUNDR: Transformer-based 3D HUmaN Reconstruction with Markers [67.8628917474705]
THUNDRは、人の3Dポーズと形状を再構築するトランスフォーマーベースのディープニューラルネットワーク手法である。
完全教師付きモデルと自己教師型モデルの両方に対して,Human3.6Mと3DPWの最先端結果を示す。
野生で収集された難易度の高い人間のポーズに対して, 非常に堅固な3次元再構成性能を観察した。
論文 参考訳(メタデータ) (2021-06-17T09:09:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。