Fugu-MT 論文翻訳(概要): 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models

論文の概要: 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models

arxiv url: http://arxiv.org/abs/2403.11111v1
Date: Sun, 17 Mar 2024 06:31:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 18:35:30.763044
Title: 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models
Title（参考訳）: 生成モデルを用いた人工データを用いた野生の3次元復元
Authors: Yongtao Ge, Wenjia Wang, Yongfan Chen, Hao Chen, Chunhua Shen,
Abstract要約: 本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
参考スコア（独自算出の注目度）: 52.96248836582542
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we show that synthetic data created by generative models is complementary to computer graphics (CG) rendered data for achieving remarkable generalization performance on diverse real-world scenes for 3D human pose and shape estimation (HPS). Specifically, we propose an effective approach based on recent diffusion models, termed HumanWild, which can effortlessly generate human images and corresponding 3D mesh annotations. We first collect a large-scale human-centric dataset with comprehensive annotations, e.g., text captions and surface normal images. Then, we train a customized ControlNet model upon this dataset to generate diverse human images and initial ground-truth labels. At the core of this step is that we can easily obtain numerous surface normal images from a 3D human parametric model, e.g., SMPL-X, by rendering the 3D mesh onto the image plane. As there exists inevitable noise in the initial labels, we then apply an off-the-shelf foundation segmentation model, i.e., SAM, to filter negative data samples. Our data generation pipeline is flexible and customizable to facilitate different real-world tasks, e.g., ego-centric scenes and perspective-distortion scenes. The generated dataset comprises 0.79M images with corresponding 3D annotations, covering versatile viewpoints, scenes, and human identities. We train various HPS regressors on top of the generated data and evaluate them on a wide range of benchmarks (3DPW, RICH, EgoBody, AGORA, SSP-3D) to verify the effectiveness of the generated data. By exclusively employing generative models, we generate large-scale in-the-wild human images and high-quality annotations, eliminating the need for real-world data collection.
Abstract（参考訳）: 本研究では,生成モデルで生成した合成データがコンピュータグラフィックス(CG)レンダリングデータと相補的であることを示し,多種多様な実世界のシーンにおける3次元ポーズと形状推定(HPS)の顕著な一般化性能を実現する。具体的には,HumanWildと呼ばれる最近の拡散モデルに基づく効果的なアプローチを提案する。まず、包括的なアノテーション、テキストキャプション、表面の正常画像を含む大規模な人間中心のデータセットを収集する。そして、このデータセットに基づいてカスタマイズされたControlNetモデルをトレーニングし、多様な人体画像と初期接地木ラベルを生成する。このステップの核となるのは、3次元メッシュを画像平面上にレンダリングすることで、3次元の人体パラメトリックモデル(例えば、SMPL-X)から多数の表面正規画像を容易に取得できることである。初期ラベルには避けられないノイズが存在するので、負のデータサンプルをフィルタするために、既成の基礎セグメンテーションモデル(SAM)を適用する。私たちのデータ生成パイプラインは柔軟でカスタマイズ可能で、例えば、エゴ中心のシーンや視点歪みのシーンなど、さまざまな現実世界のタスクを容易にします。生成されたデータセットは、対応する3Dアノテーションを備えた0.79万の画像で構成され、万能な視点、シーン、人間のアイデンティティをカバーする。我々は、生成されたデータの上に様々なHPS回帰器をトレーニングし、それらを広範囲のベンチマーク(DPW, RICH, EgoBody, AGORA, SSP-3D)で評価し、生成されたデータの有効性を検証する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。

関連論文リスト

HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting [33.9893684177763]
現在の手法は、細部、手と顔の正確なレンダリング、人間のリアリズム、外観に対する制御性に苦慮している。これらの課題に対処しようとする弱教師付きパイプラインを提示する。我々は、最先端のアプローチと比較して、3次元の人間の世代において、オーダー・オブ・マグニチュード・スピードアップを実演する。
論文参考訳（メタデータ） (2025-06-04T18:11:23Z)
SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
Zero-Shot Human-Object Interaction Synthesis with Multimodal Priors [31.277540988829976]
本稿では,現在限定されている3次元HOIデータセットのエンドツーエンドトレーニングに頼ることなく,新しいゼロショットHOI合成フレームワークを提案する。我々は、事前訓練された人間のポーズ推定モデルを用いて、人間のポーズを抽出し、一般化可能なカテゴリレベルの6-DoF推定手法を導入し、2次元HOI画像からオブジェクトポーズを求める。
論文参考訳（メタデータ） (2025-03-25T23:55:47Z)
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文参考訳（メタデータ） (2024-10-13T01:25:05Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文参考訳（メタデータ） (2024-06-17T07:43:53Z)
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文参考訳（メタデータ） (2024-06-06T17:00:10Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
Learning Dense Correspondence from Synthetic Environments [27.841736037738286]
既存の方法では、実際の2D画像に手動でラベル付けされた人間のピクセルを3D表面にマッピングする。本稿では,自動生成合成データを用いた2次元3次元人物マッピングアルゴリズムの訓練により,データ不足の問題を解決することを提案する。
論文参考訳（メタデータ） (2022-03-24T08:13:26Z)
3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。 DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2021-12-02T17:10:53Z)
UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文参考訳（メタデータ） (2021-10-28T16:24:55Z)
Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文参考訳（メタデータ） (2020-06-21T10:29:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。