論文の概要: SG-GS: Photo-realistic Animatable Human Avatars with Semantically-Guided Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2408.09665v1
- Date: Mon, 19 Aug 2024 02:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 17:44:03.266172
- Title: SG-GS: Photo-realistic Animatable Human Avatars with Semantically-Guided Gaussian Splatting
- Title(参考訳): SG-GS:感性誘導型ガウススプラッティングによる光リアルアニマタブルヒトアバター
- Authors: Haoyu Zhao, Chen Yang, Hao Wang, Xingyue Zhao, Wei Shen,
- Abstract要約: 本研究では,SG-GSを提案する。SG-GSは3次元ガウスのセマンティックス埋め込み,骨格駆動型剛性変形,および非剛性布の動的変形を用いて,モノクロビデオからフォトリアリスティックアニマタブルな人体アバターを作成する。
また,人間のアバター変形に対する幾何学的および意味的関連性を統合する3次元ネットワークを提案する。
- 参考スコア(独自算出の注目度): 18.421585526595944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reconstructing photo-realistic animatable human avatars from monocular videos remains challenging in computer vision and graphics. Recently, methods using 3D Gaussians to represent the human body have emerged, offering faster optimization and real-time rendering. However, due to ignoring the crucial role of human body semantic information which represents the intrinsic structure and connections within the human body, they fail to achieve fine-detail reconstruction of dynamic human avatars. To address this issue, we propose SG-GS, which uses semantics-embedded 3D Gaussians, skeleton-driven rigid deformation, and non-rigid cloth dynamics deformation to create photo-realistic animatable human avatars from monocular videos. We then design a Semantic Human-Body Annotator (SHA) which utilizes SMPL's semantic prior for efficient body part semantic labeling. The generated labels are used to guide the optimization of Gaussian semantic attributes. To address the limited receptive field of point-level MLPs for local features, we also propose a 3D network that integrates geometric and semantic associations for human avatar deformation. We further implement three key strategies to enhance the semantic accuracy of 3D Gaussians and rendering quality: semantic projection with 2D regularization, semantic-guided density regularization and semantic-aware regularization with neighborhood consistency. Extensive experiments demonstrate that SG-GS achieves state-of-the-art geometry and appearance reconstruction performance.
- Abstract(参考訳): モノクラービデオからフォトリアリスティックなアニマタブルな人間のアバターを再構築することは、コンピュータビジョンとグラフィックスにおいて依然として困難である。
近年,人体を表現するために3Dガウス法が登場し,より高速な最適化とリアルタイムレンダリングが可能となった。
しかし、本質的な構造と人体内のつながりを表す人体意味情報の重要な役割を無視するため、動的な人体アバターの微細な再構築には至らなかった。
この問題に対処するために,SG-GSを提案する。SG-GSは3次元ガウスアン,骨格駆動型剛性変形,および非剛性布の動的変形を用いて,モノクロビデオからフォトリアリスティックアニマタブルな人間のアバターを生成する。
次に,SMPLのセマンティック・アノテータを用いたセマンティック・ヒューマン・ボディ・アノテータ(SHA)を設計し,効率的なボディ部分のセマンティック・ラベリングを行う。
生成されたラベルはガウス意味属性の最適化を導くために使用される。
局所特徴量に対する点レベルMLPの受容領域の制限に対処するために,人間のアバター変形に対する幾何学的および意味的関連性を統合する3Dネットワークを提案する。
さらに、3次元ガウスのセマンティックな精度とレンダリング品質を高めるための3つの重要な戦略を実装した:2次元正規化を伴うセマンティックプロジェクション、セマンティック誘導密度正規化、および近隣の一貫性を伴うセマンティック認識正規化。
大規模な実験により,SG-GSは最先端の幾何学と外観復元性能を達成することが示された。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - CHASE: 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
ポーズ間における本質的な3次元一貫性と3次元幾何の対比学習を両立させるCHASEを提案する。
CHASEはスパース入力に匹敵する性能をフル入力で達成する。
CHASEはスパース入力用に設計されているが、現在のSOTAメソッドよりも驚くほど優れている。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。