Fugu-MT 論文翻訳(概要): Diffusion Models are Efficient Data Generators for Human Mesh Recovery

論文の概要: Diffusion Models are Efficient Data Generators for Human Mesh Recovery

arxiv url: http://arxiv.org/abs/2403.11111v3
Date: Fri, 17 Oct 2025 07:56:49 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-20 20:17:34.286646
Title: Diffusion Models are Efficient Data Generators for Human Mesh Recovery
Title（参考訳）: 拡散モデルは人間のメッシュ回復のための効率的なデータ生成装置である
Authors: Yongtao Ge, Wenjia Wang, Yongfan Chen, Fanzhou Wang, Lei Yang, Hao Chen, Chunhua Shen,
Abstract要約: 生成モデルにより生成された合成データはCGレンダリングデータと相補的であることを示す。我々はHumanWildと呼ばれる最近の拡散モデルに基づく効率的なデータ生成パイプラインを提案する。われわれの研究は、人間の3Dリカバリを現場に拡大するための道を開くかもしれない。
参考スコア（独自算出の注目度）: 55.37787289869703
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Despite remarkable progress having been made on the problem of 3D human pose and shape estimation (HPS), current state-of-the-art methods rely heavily on either confined indoor mocap datasets or datasets generated by a rendering engine using computer graphics (CG). Both categories of datasets exhibit inadequacies in furnishing adequate human identities and authentic in-the-wild background scenes, which are crucial for accurately simulating real-world distributions. In this work, we show that synthetic data created by generative models is complementary to CG-rendered data for achieving remarkable generalization performance on diverse real-world scenes. We propose an effective data generation pipeline based on recent diffusion models, termed HumanWild, which can effortlessly generate human images and corresponding 3D mesh annotations. Specifically, we first collect a large-scale human-centric dataset with comprehensive annotations, e.g, text captions, the depth map, and surface normal images. To generate a wide variety of human images with initial labels, we train a customized, multi-condition ControlNet model. The key to this process is using a 3D parametric model, e.g, SMPL-X, to create various condition inputs easily. Our data generation pipeline is both flexible and customizable, making it adaptable to multiple real-world tasks, such as human interaction in complex scenes and humans captured by wide-angle lenses. By relying solely on generative models, we can produce large-scale, in-the-wild human images with high-quality annotations, significantly reducing the need for manual image collection and annotation. The generated dataset encompasses a wide range of viewpoints, environments, and human identities, ensuring its versatility across different scenarios. We hope that our work could pave the way for scaling up 3D human recovery to in-the-wild scenes.
Abstract（参考訳）: 人間の3次元ポーズと形状推定(HPS)の問題に顕著な進展があったが、現在の最先端の手法は、閉じ込められた屋内モキャップのデータセットか、コンピュータグラフィックス(CG)を用いたレンダリングエンジンによって生成されたデータセットに大きく依存している。どちらのカテゴリーのデータセットも、適切な人間のアイデンティティと、現実の分布を正確にシミュレートする上で欠如している。本研究では,生成モデルで生成した合成データがCGレンダリングデータと相補的であることを示し,実世界の様々な場面において顕著な一般化性能を実現する。本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なデータ生成パイプラインを提案する。具体的には、テキストキャプション、深度マップ、表面の正常画像など、包括的なアノテーションを備えた大規模な人間中心のデータセットを最初に収集する。初期ラベルを用いた多種多様な画像を生成するために、カスタマイズされたマルチ条件制御ネットモデルを訓練する。このプロセスの鍵は、SMPL-Xのような3Dパラメトリックモデルを使って、様々な条件入力を容易に作成することである。私たちのデータ生成パイプラインは柔軟でカスタマイズ可能で、複雑なシーンにおける人間のインタラクションや広角レンズで捉えた人間など、複数の現実世界のタスクに適応できます。生成モデルのみを頼りにすることで、高品質なアノテーションによる大規模で高品質な人体画像を作成することができ、手動画像の収集やアノテーションの必要性を大幅に減らすことができる。生成されたデータセットは、幅広い視点、環境、人間のアイデンティティを含み、さまざまなシナリオでその汎用性を保証する。われわれの研究が、人間の3Dリカバリを現場に拡大するための道を開くことを願っている。

関連論文リスト

SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
FAMOUS: High-Fidelity Monocular 3D Human Digitization Using View Synthesis [51.193297565630886]
テクスチャを正確に推測することの難しさは、特に正面視画像の人物の背中のような不明瞭な領域に残る。このテクスチャ予測の制限は、大規模で多様な3Dデータセットの不足に起因する。本稿では,3次元デジタル化におけるテクスチャと形状予測の両立を図るために,広範囲な2次元ファッションデータセットを活用することを提案する。
論文参考訳（メタデータ） (2024-10-13T01:25:05Z)
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing [52.68314936128752]
本研究では,事前学習された大規模基盤モデルのパワーを活用して,3次元ラベル付きトレーニングデータを自動的に生成する新しいパラダイムを提案する。各ターゲットセマンティッククラスに対して、まず、拡散モデルとチャットGPT生成したテキストプロンプトを介して、様々な構造と外観の1つのオブジェクトの2D画像を生成する。我々は、これらの拡張画像を3Dオブジェクトに変換し、ランダムな合成によって仮想シーンを構築する。
論文参考訳（メタデータ） (2024-08-25T09:31:22Z)
Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文参考訳（メタデータ） (2024-07-10T10:44:18Z)
GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文参考訳（メタデータ） (2024-06-06T17:00:10Z)
ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文参考訳（メタデータ） (2024-03-04T07:57:05Z)
Learning Dense Correspondence from Synthetic Environments [27.841736037738286]
既存の方法では、実際の2D画像に手動でラベル付けされた人間のピクセルを3D表面にマッピングする。本稿では,自動生成合成データを用いた2次元3次元人物マッピングアルゴリズムの訓練により,データ不足の問題を解決することを提案する。
論文参考訳（メタデータ） (2022-03-24T08:13:26Z)
3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。 DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文参考訳（メタデータ） (2021-12-02T17:10:53Z)
UltraPose: Synthesizing Dense Pose with 1 Billion Points by Human-body Decoupling 3D Model [58.70130563417079]
我々は,身体の発生を自由に制御できる,一連の分離されたパラメータを持つ新しい3次元人体モデルを導入する。既存の手動注釈付きDensePose-COCOデータセットと比較して、合成されたUltraPoseは、アノテーションのコストと誤差を伴わずに、超高密度な画像-地上対応を持つ。
論文参考訳（メタデータ） (2021-10-28T16:24:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。