論文の概要: StyleGAN-Human: A Data-Centric Odyssey of Human Generation
- arxiv url: http://arxiv.org/abs/2204.11823v1
- Date: Mon, 25 Apr 2022 17:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-26 12:55:25.489281
- Title: StyleGAN-Human: A Data-Centric Odyssey of Human Generation
- Title(参考訳): StyleGAN-Human: 世代データ中心のオジッセイ
- Authors: Jianglin Fu, Shikai Li, Yuming Jiang, Kwan-Yee Lin, Chen Qian, Chen
Change Loy, Wayne Wu, Ziwei Liu
- Abstract要約: この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
- 参考スコア(独自算出の注目度): 96.7080874757475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unconditional human image generation is an important task in vision and
graphics, which enables various applications in the creative industry. Existing
studies in this field mainly focus on "network engineering" such as designing
new components and objective functions. This work takes a data-centric
perspective and investigates multiple critical aspects in "data engineering",
which we believe would complement the current practice. To facilitate a
comprehensive study, we collect and annotate a large-scale human image dataset
with over 230K samples capturing diverse poses and textures. Equipped with this
large dataset, we rigorously investigate three essential factors in data
engineering for StyleGAN-based human generation, namely data size, data
distribution, and data alignment. Extensive experiments reveal several valuable
observations w.r.t. these aspects: 1) Large-scale data, more than 40K images,
are needed to train a high-fidelity unconditional human generation model with
vanilla StyleGAN. 2) A balanced training set helps improve the generation
quality with rare face poses compared to the long-tailed counterpart, whereas
simply balancing the clothing texture distribution does not effectively bring
an improvement. 3) Human GAN models with body centers for alignment outperform
models trained using face centers or pelvis points as alignment anchors. In
addition, a model zoo and human editing applications are demonstrated to
facilitate future research in the community.
- Abstract(参考訳): 無条件の人間の画像生成は、視覚とグラフィックにおいて重要なタスクであり、創造産業における様々な応用を可能にする。
この分野での既存の研究は主に、新しいコンポーネントや目的関数を設計する「ネットワークエンジニアリング」に焦点を当てている。
この作業は、データ中心の観点から、現在のプラクティスを補完するであろう“データエンジニアリング”における複数の重要な側面を調査します。
総合的な研究を容易にするため,大規模な人間の画像データセットを230万以上のサンプルで収集・注釈し,多様なポーズやテクスチャを抽出した。
この大規模なデータセットを具備し、StyleGANベースの人間生成のためのデータエンジニアリングにおいて、データサイズ、データ分散、データアライメントの3つの重要な要素を厳格に調査した。
大規模な実験により、これらの側面に関するいくつかの貴重な観測が明らかになった。
1)バニラスタイルGANを用いた高忠実性非条件生成モデルの訓練には,40K画像以上の大規模データが必要である。
2) バランスの取れたトレーニングセットは, 長い尾を持つものに比べ, 稀な顔のポーズで生成品質を向上させるのに有効である。
3) 顔中心や骨盤点をアライメントアンカーとして訓練し, 体中心をアライメントする人体モデル。
また、モデル動物園と人間編集の応用が示され、コミュニティにおける今後の研究が促進される。
関連論文リスト
- Exploiting Contextual Uncertainty of Visual Data for Efficient Training of Deep Models [0.65268245109828]
アクティブラーニングCDALにおける文脈多様性の概念を導入する。
モデルバイアスを低減するために、文脈的に公正なデータをキュレートするデータ修復アルゴリズムを提案する。
我々は、野生生物カメラトラップ画像の画像検索システムと、質の悪い農村道路に対する信頼性の高い警告システムの開発に取り組んでいる。
論文 参考訳(メタデータ) (2024-11-04T09:43:33Z) - A Model Generalization Study in Localizing Indoor Cows with COw LOcalization (COLO) dataset [0.0]
本研究は,牛肉検出用YOLOv8モデルとYOLOv9モデルの屋内フリーストール納屋環境における一般化能力について検討した。
1)照明条件やカメラアングルの変化によりモデル一般化が等しく影響を受けること,(2)高次モデル複雑性はより優れた一般化性能を保証すること,(3)関連するタスクで訓練されたカスタム初期重み付き微調整は検出タスクに常に利点をもたらすこと,の3つの主要な仮説を考察する。
論文 参考訳(メタデータ) (2024-07-29T18:49:58Z) - 3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。
生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文 参考訳(メタデータ) (2024-03-17T06:31:16Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation [59.77275587857252]
総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
論文 参考訳(メタデータ) (2023-09-25T17:58:46Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。
特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文 参考訳(メタデータ) (2020-06-21T10:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。