論文の概要: UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation
- arxiv url: http://arxiv.org/abs/2309.14335v1
- Date: Mon, 25 Sep 2023 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 12:37:05.535995
- Title: UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation
- Title(参考訳): UnitedHuman:高解像度ヒューマンジェネレーションのためのマルチソースデータ
- Authors: Jianglin Fu, Shikai Li, Yuming Jiang, Kwan-Yee Lin, Wayne Wu, Ziwei
Liu
- Abstract要約: 総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
- 参考スコア(独自算出の注目度): 59.77275587857252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human generation has achieved significant progress. Nonetheless, existing
methods still struggle to synthesize specific regions such as faces and hands.
We argue that the main reason is rooted in the training data. A holistic human
dataset inevitably has insufficient and low-resolution information on local
parts. Therefore, we propose to use multi-source datasets with various
resolution images to jointly learn a high-resolution human generative model.
However, multi-source data inherently a) contains different parts that do not
spatially align into a coherent human, and b) comes with different scales. To
tackle these challenges, we propose an end-to-end framework, UnitedHuman, that
empowers continuous GAN with the ability to effectively utilize multi-source
data for high-resolution human generation. Specifically, 1) we design a
Multi-Source Spatial Transformer that spatially aligns multi-source images to
full-body space with a human parametric model. 2) Next, a continuous GAN is
proposed with global-structural guidance and CutMix consistency. Patches from
different datasets are then sampled and transformed to supervise the training
of this scale-invariant generative model. Extensive experiments demonstrate
that our model jointly learned from multi-source data achieves superior quality
than those learned from a holistic dataset.
- Abstract(参考訳): 人間世代は大きな進歩を遂げた。
それでも、既存の方法は顔や手などの特定の領域の合成に苦慮している。
主な理由はトレーニングデータにあると私たちは主張している。
総合的な人間のデータセットは必然的に、局所的な部分に関する不十分で低解像度な情報を持っている。
そこで我々は,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
しかし、マルチソースデータは本質的に
a)コヒーレントな人間に空間的に整合しない異なる部分を含み、
b) 異なる尺度で表される。
これらの課題に取り組むために,我々は,マルチソースデータを高分解能な人間生成に効果的に活用できる連続ganを付与する,エンドツーエンドのフレームワークであるunitedhumanを提案する。
具体的には
1) マルチソース画像から全身空間に空間的に整合するマルチソース空間トランスを人間のパラメトリックモデルで設計する。
2)次に,グローバル構造ガイダンスとカットミックス一貫性を備えた連続ganを提案する。
異なるデータセットからのパッチをサンプリングして変換し、このスケール不変生成モデルのトレーニングを監督する。
広範な実験により,マルチソースデータから学習したモデルが,総合的なデータセットから得られたモデルよりも優れた品質を達成できることが証明された。
関連論文リスト
- AgentOhana: Design Unified Data and Training Pipeline for Effective
Agent Learning [102.05962453558368]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z) - Interpretable Multi-Source Data Fusion Through Latent Variable Gaussian
Process [8.391185633015896]
提案手法は、2つの数学的(表現パラボラ問題、2D Ackley関数)と2つの材料科学(FeCrAlおよびSmCoFe合金の設計)のケーススタディを用いて実証および解析を行った。
単一のソースとソースを意識しないMLモデルと比較して,提案するマルチソースデータ融合フレームワークは,スパースデータ問題,ソースに対する解釈可能性,異なるソース間の相関や関係を利用してモデリング能力を向上させることができる。
論文 参考訳(メタデータ) (2024-02-06T16:54:59Z) - Training on Synthetic Data Beats Real Data in Multimodal Relation
Extraction [8.038421100401132]
本稿では,テキストや画像などの一意的なデータのみをトレーニング中に利用できるような,新たな問題設定について考察する。
我々は,実マルチモーダルテストデータ上で良好に動作する合成データから,マルチモーダル関係を訓練することを目指している。
完全合成画像で訓練された最良のモデルは、F1の3.76%のマージンで、実際のマルチモーダルデータで訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-05T08:11:34Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Ensembles of GANs for synthetic training data generation [7.835101177261939]
トレーニングデータ不足は、ほとんどのディープラーニングプラクティスにとって大きなボトルネックです。
本研究は,gans(generative adversarial networks)が生成した合成画像のトレーニングデータとしての利用について検討する。
論文 参考訳(メタデータ) (2021-04-23T19:38:48Z) - Lessons Learned from the Training of GANs on Artificial Datasets [0.0]
GAN(Generative Adversarial Networks)は,近年,現実的な画像の合成において大きな進歩を遂げている。
GANは不適合や過度に適合する傾向があり、分析が困難で制約を受ける。
無限に多くのサンプルがあり、実際のデータ分布は単純である人工データセットでトレーニングする。
GANのトレーニング混合物はネットワークの深さや幅を増大させるよりもパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2020-07-13T14:51:02Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。