論文の概要: BAG: Body-Aligned 3D Wearable Asset Generation
- arxiv url: http://arxiv.org/abs/2501.16177v1
- Date: Mon, 27 Jan 2025 16:23:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:58:03.285873
- Title: BAG: Body-Aligned 3D Wearable Asset Generation
- Title(参考訳): BAG:体に合った3Dウェアラブル・アセット・ジェネレーション
- Authors: Zhongjin Luo, Yang Li, Mingrui Zhang, Senbo Wang, Han Yan, Xibin Song, Taizhang Shang, Wei Mao, Hongdong Li, Xiaoguang Han, Pan Ji,
- Abstract要約: BagはBody-aligned Asset Generation(ボディ・アセット・ジェネレーション・ジェネレーション)と呼ばれ、3Dウェアラブル・アセットを出力する。
その結果, 画像のプロンプト追従能力, 形状の多様性, 形状品質の点で, 既存の手法に比べて大きな優位性を示した。
- 参考スコア(独自算出の注目度): 59.7545477546307
- License:
- Abstract: While recent advancements have shown remarkable progress in general 3D shape generation models, the challenge of leveraging these approaches to automatically generate wearable 3D assets remains unexplored. To this end, we present BAG, a Body-aligned Asset Generation method to output 3D wearable asset that can be automatically dressed on given 3D human bodies. This is achived by controlling the 3D generation process using human body shape and pose information. Specifically, we first build a general single-image to consistent multiview image diffusion model, and train it on the large Objaverse dataset to achieve diversity and generalizability. Then we train a Controlnet to guide the multiview generator to produce body-aligned multiview images. The control signal utilizes the multiview 2D projections of the target human body, where pixel values represent the XYZ coordinates of the body surface in a canonical space. The body-conditioned multiview diffusion generates body-aligned multiview images, which are then fed into a native 3D diffusion model to produce the 3D shape of the asset. Finally, by recovering the similarity transformation using multiview silhouette supervision and addressing asset-body penetration with physics simulators, the 3D asset can be accurately fitted onto the target human body. Experimental results demonstrate significant advantages over existing methods in terms of image prompt-following capability, shape diversity, and shape quality. Our project page is available at https://bag-3d.github.io/.
- Abstract(参考訳): 近年, 一般的な3D形状生成モデルの進歩が目覚ましいが, ウェアラブル3Dアセットの自動生成にこれらのアプローチを活用するという課題は未解決のままである。
そこで本研究では,人体に自動的に装着可能な3Dウェアラブル・アセット・ジェネレーション法であるBAGを提案する。
これは、人体形状を用いて3D生成過程を制御し、情報を提示することにより実現される。
具体的には、まず、一貫したマルチビュー画像拡散モデルに対する一般的な単一イメージを構築し、それを大きなオブジャバースデータセットでトレーニングし、多様性と一般化性を実現する。
次に、制御ネットをトレーニングして、多視点生成装置を誘導し、ボディアラインな多視点画像を生成する。
制御信号は、対象の人体のマルチビュー2Dプロジェクションを利用し、この画素値は、標準空間における体表面のXYZ座標を表す。
ボディコンディショニングされたマルチビュー拡散は、ボディアラインなマルチビュー画像を生成し、それをネイティブな3D拡散モデルに入力して、アセットの3D形状を生成する。
最後に、マルチビューシルエット監視を用いて類似性変換を回復し、物理シミュレータによる資産体侵入に対処することにより、ターゲットの人体に正確に3Dアセットを取付けることができる。
実験結果から, 画像のプロンプト追従能力, 形状の多様性, 形状の質の観点から, 既存の手法に比べて有意な優位性を示した。
私たちのプロジェクトページはhttps://bag-3d.github.io/.com/で公開されている。
関連論文リスト
- Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。
シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。
Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文 参考訳(メタデータ) (2024-12-03T17:58:07Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Get3DHuman: Lifting StyleGAN-Human into a 3D Generative Model using
Pixel-aligned Reconstruction Priors [56.192682114114724]
Get3DHumanは、生成された結果のリアリズムと多様性を大幅に向上させる、新しい3Dヒューマンフレームワークである。
我々のキーとなる観察は、この3Dジェネレータは、人間の2Dジェネレータと3Dコンストラクタを通して学んだ、人間関係の先行技術から利益を得ることができるということだ。
論文 参考訳(メタデータ) (2023-02-02T15:37:46Z) - 3DHumanGAN: 3D-Aware Human Image Generation with 3D Pose Mapping [37.14866512377012]
3DHumanGAN(3DHumanGAN)は、全身の人間の写実的な画像を合成する3D対応の対向ネットワークである。
本稿では,3次元ポーズマッピングネットワークによって2次元畳み込みバックボーンを変調する新しいジェネレータアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-12-14T17:59:03Z) - EVA3D: Compositional 3D Human Generation from 2D Image Collections [27.70991135165909]
EVA3Dは2次元画像のみから学習した無条件の3次元人体生成モデルである。
詳細な形状の3D人間をサンプリングし、鐘や笛を使わずに高品質な画像(最大512x256まで)をレンダリングすることができる。
テクスチャーとテクスチャ品質の両方に関して、最先端の3Dヒューマンジェネレーション性能を実現する。
論文 参考訳(メタデータ) (2022-10-10T17:59:31Z) - Human Performance Capture from Monocular Video in the Wild [50.34917313325813]
本研究では,挑戦的な身体ポーズを特徴とするモノクロ映像から動的3次元人体形状をキャプチャする手法を提案する。
本手法は,現在開発中の3DPWビデオデータセットにおいて,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2021-11-29T16:32:41Z) - Learning Temporal 3D Human Pose Estimation with Pseudo-Labels [3.0954251281114513]
自己監督型3次元ポーズ推定のための簡易かつ効果的なアプローチを提案する。
我々は、マルチビューカメラシステムの2Dボディポーズ推定を三角測量に頼っている。
提案手法はHuman3.6MとMPI-INF-3DHPベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2021-10-14T17:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。