論文の概要: Topology-aware Human Avatars with Semantically-guided Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2408.09665v2
- Date: Tue, 19 Nov 2024 12:48:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:44.701147
- Title: Topology-aware Human Avatars with Semantically-guided Gaussian Splatting
- Title(参考訳): 意味誘導型ガウススプラッティングによるトポロジーを考慮したヒトアバター
- Authors: Haoyu Zhao, Chen Yang, Hao Wang, Xingyue Zhao, Wei Shen,
- Abstract要約: 本研究では, セマンティクスを組み込んだ3次元ガウス, 骨格駆動型剛性変形, および非剛性布の動的変形を用いて, フォトリアリスティックな人間のアバターを創出するSG-GSを提案する。
我々は,人間のアバター変形にトポロジカルおよび幾何学的アソシエーションを統合する3Dネットワークを採用している。
- 参考スコア(独自算出の注目度): 18.421585526595944
- License:
- Abstract: Reconstructing photo-realistic and topology-aware animatable human avatars from monocular videos remains challenging in computer vision and graphics. Recently, methods using 3D Gaussians to represent the human body have emerged, offering faster optimization and real-time rendering. However, due to ignoring the crucial role of human body semantic information which represents the explicit topological and intrinsic structure within human body, they fail to achieve fine-detail reconstruction of human avatars. To address this issue, we propose SG-GS, which uses semantics-embedded 3D Gaussians, skeleton-driven rigid deformation, and non-rigid cloth dynamics deformation to create photo-realistic human avatars. We then design a Semantic Human-Body Annotator (SHA) which utilizes SMPL's semantic prior for efficient body part semantic labeling. The generated labels are used to guide the optimization of semantic attributes of Gaussian. To capture the explicit topological structure of the human body, we employ a 3D network that integrates both topological and geometric associations for human avatar deformation. We further implement three key strategies to enhance the semantic accuracy of 3D Gaussians and rendering quality: semantic projection with 2D regularization, semantic-guided density regularization and semantic-aware regularization with neighborhood consistency. Extensive experiments demonstrate that SG-GS achieves state-of-the-art geometry and appearance reconstruction performance.
- Abstract(参考訳): モノクラービデオから写真リアリスティックでトポロジを意識したアニマタブルな人間のアバターを再構築することは、コンピュータビジョンとグラフィックスにおいて依然として困難である。
近年,人体を表現するために3Dガウス法が登場し,より高速な最適化とリアルタイムレンダリングが可能となった。
しかし、人体内の明確なトポロジカル・内在的構造を表す人体意味情報の重要な役割を無視するため、人体アバターの微細な再構築には至らなかった。
この問題に対処するために,SG-GSを提案する。SG-GSはセマンティックスを組み込んだ3Dガウス,スケルトン駆動の剛性変形,および非剛性布の動的変形を用いて,フォトリアリスティックな人間のアバターを作成する。
次に,SMPLのセマンティック・アノテータを用いたセマンティック・ヒューマン・ボディ・アノテータ(SHA)を設計し,効率的なボディ部分のセマンティック・ラベリングを行う。
生成されたラベルは、ガウスのセマンティック属性の最適化を導くために使用される。
人体の明示的なトポロジ的構造を捉えるために,人間のアバター変形に対するトポロジ的および幾何学的関連を統合した3Dネットワークを用いる。
さらに、3次元ガウスのセマンティックな精度とレンダリング品質を高めるための3つの重要な戦略を実装した:2次元正規化を伴うセマンティックプロジェクション、セマンティック誘導密度正規化、および近隣の一貫性を伴うセマンティック認識正規化。
大規模な実験により,SG-GSは最先端の幾何学と外観復元性能を達成することが示された。
関連論文リスト
- Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - CHASE: 3D-Consistent Human Avatars with Sparse Inputs via Gaussian Splatting and Contrastive Learning [19.763523500564542]
ポーズ間における本質的な3次元一貫性と3次元幾何の対比学習を両立させるCHASEを提案する。
CHASEはスパース入力に匹敵する性能をフル入力で達成する。
CHASEはスパース入力用に設計されているが、現在のSOTAメソッドよりも驚くほど優れている。
論文 参考訳(メタデータ) (2024-08-19T02:46:23Z) - CLIP-GS: CLIP-Informed Gaussian Splatting for Real-time and View-consistent 3D Semantic Understanding [32.76277160013881]
コントラスト言語画像事前学習(CLIP)のセマンティクスをガウススプラッティングに統合するCLIP-GSを提案する。
SACはオブジェクト内の固有の統一意味論を利用して、3Dガウスのコンパクトで効果的な意味表現を学ぶ。
また,3次元モデルから得られた多視点一貫性を利用して,3次元コヒーレント自己学習(3DCS)戦略を導入する。
論文 参考訳(メタデータ) (2024-04-22T15:01:32Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - Deformable 3D Gaussian Splatting for Animatable Human Avatars [50.61374254699761]
本稿では,デジタルアバターを単一単分子配列で構築する手法を提案する。
ParDy-Humanは、リアルなダイナミックな人間のアバターの明示的なモデルを構成する。
当社のアバター学習には,Splatマスクなどの追加アノテーションが不要であり,ユーザのハードウェア上でも,フル解像度の画像を効率的に推測しながら,さまざまなバックグラウンドでトレーニングすることが可能である。
論文 参考訳(メタデータ) (2023-12-22T20:56:46Z) - GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians [51.46168990249278]
一つのビデオから動的に3D映像を映し出すリアルな人間のアバターを作成するための効率的なアプローチを提案する。
GustafAvatarは、公開データセットと収集データセットの両方で検証されています。
論文 参考訳(メタデータ) (2023-12-04T18:55:45Z) - AvatarGen: A 3D Generative Model for Animatable Human Avatars [108.11137221845352]
アバタージェネレーション(AvatarGen)は、様々な外観と制御可能なジオメトリーを持つ3D認識された人間の無監督世代である。
提案手法は, 高品質な外観と幾何学的モデリングにより, アニマタブルな3次元アバターを生成することができる。
シングルビュー再構成、再アニメーション、テキスト誘導合成/編集など、多くのアプリケーションに向いている。
論文 参考訳(メタデータ) (2022-11-26T15:15:45Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。