論文の概要: UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation
- arxiv url: http://arxiv.org/abs/2309.14335v1
- Date: Mon, 25 Sep 2023 17:58:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 12:37:05.535995
- Title: UnitedHuman: Harnessing Multi-Source Data for High-Resolution Human
Generation
- Title(参考訳): UnitedHuman:高解像度ヒューマンジェネレーションのためのマルチソースデータ
- Authors: Jianglin Fu, Shikai Li, Yuming Jiang, Kwan-Yee Lin, Wayne Wu, Ziwei
Liu
- Abstract要約: 総合的な人間のデータセットは、必然的に、局所的な部分についての不十分で低解像度な情報を持っている。
本稿では,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
- 参考スコア(独自算出の注目度): 59.77275587857252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human generation has achieved significant progress. Nonetheless, existing
methods still struggle to synthesize specific regions such as faces and hands.
We argue that the main reason is rooted in the training data. A holistic human
dataset inevitably has insufficient and low-resolution information on local
parts. Therefore, we propose to use multi-source datasets with various
resolution images to jointly learn a high-resolution human generative model.
However, multi-source data inherently a) contains different parts that do not
spatially align into a coherent human, and b) comes with different scales. To
tackle these challenges, we propose an end-to-end framework, UnitedHuman, that
empowers continuous GAN with the ability to effectively utilize multi-source
data for high-resolution human generation. Specifically, 1) we design a
Multi-Source Spatial Transformer that spatially aligns multi-source images to
full-body space with a human parametric model. 2) Next, a continuous GAN is
proposed with global-structural guidance and CutMix consistency. Patches from
different datasets are then sampled and transformed to supervise the training
of this scale-invariant generative model. Extensive experiments demonstrate
that our model jointly learned from multi-source data achieves superior quality
than those learned from a holistic dataset.
- Abstract(参考訳): 人間世代は大きな進歩を遂げた。
それでも、既存の方法は顔や手などの特定の領域の合成に苦慮している。
主な理由はトレーニングデータにあると私たちは主張している。
総合的な人間のデータセットは必然的に、局所的な部分に関する不十分で低解像度な情報を持っている。
そこで我々は,高解像度な人為的生成モデルを共同で学習するために,様々な解像度画像を用いたマルチソースデータセットを提案する。
しかし、マルチソースデータは本質的に
a)コヒーレントな人間に空間的に整合しない異なる部分を含み、
b) 異なる尺度で表される。
これらの課題に取り組むために,我々は,マルチソースデータを高分解能な人間生成に効果的に活用できる連続ganを付与する,エンドツーエンドのフレームワークであるunitedhumanを提案する。
具体的には
1) マルチソース画像から全身空間に空間的に整合するマルチソース空間トランスを人間のパラメトリックモデルで設計する。
2)次に,グローバル構造ガイダンスとカットミックス一貫性を備えた連続ganを提案する。
異なるデータセットからのパッチをサンプリングして変換し、このスケール不変生成モデルのトレーニングを監督する。
広範な実験により,マルチソースデータから学習したモデルが,総合的なデータセットから得られたモデルよりも優れた品質を達成できることが証明された。
関連論文リスト
- Multi-OCT-SelfNet: Integrating Self-Supervised Learning with Multi-Source Data Fusion for Enhanced Multi-Class Retinal Disease Classification [2.5091334993691206]
網膜疾患診断のための堅牢なディープラーニングモデルの開発には、トレーニングのためのかなりのデータセットが必要である。
より小さなデータセットで効果的に一般化する能力は、依然として永続的な課題である。
さまざまなデータソースを組み合わせて、パフォーマンスを改善し、新しいデータに一般化しています。
論文 参考訳(メタデータ) (2024-09-17T17:22:35Z) - Self-consistent Deep Geometric Learning for Heterogeneous Multi-source Spatial Point Data Prediction [10.646376827353551]
環境モニタリングや天然資源管理といった分野において,マルチソース空間データ予測が重要である。
この領域の既存のモデルはドメイン固有の性質のためにしばしば不足し、様々な情報源からの情報を統合する戦略が欠如している。
我々は,地中真理ラベルを頼らずに,様々な情報源からの情報を順に整列する,革新的なマルチソース空間点データ予測フレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-30T16:13:13Z) - SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQAは200万以上の質問応答対を含む大規模な合成マルチモーダルデータセットである。
我々の合成データセットは、挑戦的なベンチマークとして機能するだけでなく、既存の生成的マルチモーダルモデルを文脈拡張世代に適用する上でも非常に効果的であることを示す。
論文 参考訳(メタデータ) (2024-06-28T01:14:43Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Deep Transfer Learning for Multi-source Entity Linkage via Domain
Adaptation [63.24594955429465]
マルチソースエンティティリンクは、データのクリーニングやユーザ縫合といった、高インパクトなアプリケーションにおいて重要である。
AdaMELは、多ソースエンティティリンクを実行するための一般的なハイレベルな知識を学ぶディープトランスファー学習フレームワークである。
本フレームワークは,教師付き学習に基づく平均的手法よりも8.21%向上した最先端の学習結果を実現する。
論文 参考訳(メタデータ) (2021-10-27T15:20:41Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Ensembles of GANs for synthetic training data generation [7.835101177261939]
トレーニングデータ不足は、ほとんどのディープラーニングプラクティスにとって大きなボトルネックです。
本研究は,gans(generative adversarial networks)が生成した合成画像のトレーニングデータとしての利用について検討する。
論文 参考訳(メタデータ) (2021-04-23T19:38:48Z) - Modeling Shared Responses in Neuroimaging Studies through MultiView ICA [94.31804763196116]
被験者の大規模なコホートを含むグループ研究は、脳機能組織に関する一般的な結論を引き出す上で重要である。
グループ研究のための新しい多視点独立成分分析モデルを提案し、各被験者のデータを共有独立音源と雑音の線形結合としてモデル化する。
まず、fMRIデータを用いて、被験者間の共通音源の同定における感度の向上を示す。
論文 参考訳(メタデータ) (2020-06-11T17:29:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。