論文の概要: PoseGen: Learning to Generate 3D Human Pose Dataset with NeRF
- arxiv url: http://arxiv.org/abs/2312.14915v1
- Date: Fri, 22 Dec 2023 18:50:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-25 13:53:07.291951
- Title: PoseGen: Learning to Generate 3D Human Pose Dataset with NeRF
- Title(参考訳): PoseGen: NeRFで3DのPoseデータセットを生成する学習
- Authors: Mohsen Gholami, Rabab Ward, Z. Jane Wang
- Abstract要約: 本稿では,Neural Radiance Fields (NeRF) を用いた3次元ポーズデータセット生成のためのエンドツーエンドフレームワークを提案する。
NeRFはデータ駆動型であり、人間の3Dスキャンを必要としない。そのため、データ生成にNeRFを用いることは、便利なユーザ固有のデータ生成のための新しい方向である。
- 参考スコア(独自算出の注目度): 20.841557239621995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes an end-to-end framework for generating 3D human pose
datasets using Neural Radiance Fields (NeRF). Public datasets generally have
limited diversity in terms of human poses and camera viewpoints, largely due to
the resource-intensive nature of collecting 3D human pose data. As a result,
pose estimators trained on public datasets significantly underperform when
applied to unseen out-of-distribution samples. Previous works proposed
augmenting public datasets by generating 2D-3D pose pairs or rendering a large
amount of random data. Such approaches either overlook image rendering or
result in suboptimal datasets for pre-trained models. Here we propose PoseGen,
which learns to generate a dataset (human 3D poses and images) with a feedback
loss from a given pre-trained pose estimator. In contrast to prior art, our
generated data is optimized to improve the robustness of the pre-trained model.
The objective of PoseGen is to learn a distribution of data that maximizes the
prediction error of a given pre-trained model. As the learned data distribution
contains OOD samples of the pre-trained model, sampling data from such a
distribution for further fine-tuning a pre-trained model improves the
generalizability of the model. This is the first work that proposes NeRFs for
3D human data generation. NeRFs are data-driven and do not require 3D scans of
humans. Therefore, using NeRF for data generation is a new direction for
convenient user-specific data generation. Our extensive experiments show that
the proposed PoseGen improves two baseline models (SPIN and HybrIK) on four
datasets with an average 6% relative improvement.
- Abstract(参考訳): 本稿では,Neural Radiance Fields (NeRF) を用いた3次元ポーズデータセット生成のためのエンドツーエンドフレームワークを提案する。
公開データセットは一般的に、人間のポーズやカメラの視点に関して、限られた多様性を持っている。
結果として、公開データセットでトレーニングされたポーズ推定器は、未発見の分散サンプルに適用された場合、著しく低下する。
以前の研究では、2d-3dのポーズペアを生成したり、大量のランダムデータをレンダリングすることで、パブリックデータセットの強化を提案した。
このようなアプローチは、画像レンダリングを見落としたり、事前訓練されたモデルに最適なデータセットをもたらす。
本稿では,与えられたポーズ推定器からフィードバック損失を伴うデータセット(人間の3dポーズと画像)を生成する方法を提案する。
先行技術とは対照的に、生成されたデータは事前学習したモデルのロバスト性を改善するために最適化されます。
posegenの目的は、与えられた事前学習モデルの予測誤差を最大化するデータの分布を学ぶことである。
学習したデータ分布は、事前学習されたモデルのOODサンプルを含むため、事前学習されたモデルをさらに微調整するために、そのような分布からサンプリングしたデータは、モデルの一般化性を向上させる。
これは3次元データ生成のためのNeRFを提案する最初の研究である。
NeRFはデータ駆動であり、人間の3Dスキャンを必要としない。
したがって、データ生成にNeRFを使うことは、便利なユーザ固有のデータ生成のための新しい方向である。
提案したPoseGenは,平均6%の改善率で4つのデータセット上で2つのベースラインモデル(SPINとHybrIK)を改善した。
関連論文リスト
- Neural Localizer Fields for Continuous 3D Human Pose and Shape Estimation [32.30055363306321]
本研究では、異なる人間のポーズや形状に関連したタスクやデータセットをシームレスに統一するパラダイムを提案する。
私たちの定式化は、トレーニングとテスト時間の両方で、人間の体積の任意の点を問う能力に重点を置いています。
メッシュや2D/3Dスケルトン,密度の高いポーズなど,さまざまな注釈付きデータソースを,変換することなく自然に利用することが可能です。
論文 参考訳(メタデータ) (2024-07-10T10:44:18Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Learning 3D Human Pose Estimation from Dozens of Datasets using a
Geometry-Aware Autoencoder to Bridge Between Skeleton Formats [80.12253291709673]
本稿では,アフィン結合型オートエンコーダ(ACAE)法を提案する。
このアプローチは、28人の人間のポーズデータセットを使って1つのモデルを監督する、極端なマルチデータセット体制にスケールします。
論文 参考訳(メタデータ) (2022-12-29T22:22:49Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - AdaptPose: Cross-Dataset Adaptation for 3D Human Pose Estimation by
Learnable Motion Generation [24.009674750548303]
トレーニング済みの3Dポーズ推定器を新しいデータセットでテストすると、大きなパフォーマンス低下が発生する。
本稿では、ソースデータセットから合成された3次元人間の動きを生成するエンドツーエンドフレームワークであるAdaptPoseを提案する。
提案手法は, 部分的な3Dアノテーションを用いた半教師あり学習法を16%, クロスデータセット評価において14%, 従来の半教師あり学習法よりも16%優れていた。
論文 参考訳(メタデータ) (2021-12-22T00:27:52Z) - Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D
Pose Data [14.719976311208502]
トレーニングとテストデータドメインのギャップは、しばしばモデルのパフォーマンスに悪影響を及ぼします。
本稿では、外見とポーズ空間の両方における適応問題に対処する適応的ヒューマンポーズ(AHuP)アプローチを提案する。
AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。
論文 参考訳(メタデータ) (2021-05-23T01:20:40Z) - 3D Human Pose Regression using Graph Convolutional Network [68.8204255655161]
本稿では,2次元のポーズから3次元のポーズ回帰を行うために,PoseGraphNetというグラフ畳み込みネットワークを提案する。
我々のモデルの性能は最先端に近いが、パラメータははるかに少ない。
論文 参考訳(メタデータ) (2021-05-21T14:41:31Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。