論文の概要: Human Image Generation: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2212.08896v1
- Date: Sat, 17 Dec 2022 15:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:23:49.830890
- Title: Human Image Generation: A Comprehensive Survey
- Title(参考訳): 人間の画像生成: 総合的な調査
- Authors: Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan
- Abstract要約: 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
- 参考スコア(独自算出の注目度): 60.63589576693112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video synthesis has become a blooming topic in computer vision and
machine learning communities along with the developments of deep generative
models, due to its great academic and application value. Many researchers have
been devoted to synthesizing high-fidelity human images as one of the most
commonly seen object categories in daily lives, where a large number of studies
are performed based on various deep generative models, task settings and
applications. Thus, it is necessary to give a comprehensive overview on these
variant methods on human image generation. In this paper, we divide human image
generation techniques into three paradigms, i.e., data-driven methods,
knowledge-guided methods and hybrid methods. For each route, the most
representative models and the corresponding variants are presented, where the
advantages and characteristics of different methods are summarized in terms of
model architectures and input/output requirements. Besides, the main public
human image datasets and evaluation metrics in the literature are also
summarized. Furthermore, due to the wide application potentials, two typical
downstream usages of synthesized human images are covered, i.e., data
augmentation for person recognition tasks and virtual try-on for fashion
customers. Finally, we discuss the challenges and potential directions of human
image generation to shed light on future research.
- Abstract(参考訳): 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。
多くの研究者は、人間像を日常生活で最もよく見られる対象のカテゴリの1つとして合成することに力を入れており、様々な深層生成モデル、タスク設定、アプリケーションに基づいて多くの研究が行われている。
したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
それぞれの経路について、最も代表的なモデルと対応するバリエーションが提示され、そこで異なる手法の利点と特徴をモデルアーキテクチャと入出力要求という観点で要約する。
また、文献における主要な公開画像データセットと評価指標についても概説する。
さらに、幅広い応用可能性から、人物認識タスクのためのデータ拡張やファッション顧客のための仮想トライオンという、合成された人間の画像の2つの典型的下流利用をカバーできる。
最後に,人間の画像生成の課題と今後の研究の方向性について考察する。
関連論文リスト
- VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Deceptive-Human: Prompt-to-NeRF 3D Human Generation with 3D-Consistent
Synthetic Images [67.31920821192323]
Deceptive-Humanは、最先端の制御拡散モデル(ControlNetなど)を利用して高品質な制御可能な3D NeRFを生成する新しいフレームワークである。
提案手法は,テキストプロンプトや3Dメッシュ,ポーズ,シード画像などの付加データを含む,汎用的で容易に収容できる。
結果として得られる3D人間のNeRFモデルは、360度の視点から高光写実性ビューの合成を促進する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Image-Based Virtual Try-On: A Survey [40.55428225199453]
画像ベースの仮想試着は、自然に着飾った人物画像を衣服のイメージで合成することを目的としており、オンラインショッピングに革命をもたらす。
本稿では,パイプラインアーキテクチャ,人物表現,トライオン表示などの重要なモジュールの側面において,最先端技術と方法論を包括的に分析する。
CLIPを用いた新しいセマンティックな基準を提案し、同じデータセット上で一様に実装された評価指標を用いて代表的手法を評価する。
論文 参考訳(メタデータ) (2023-11-08T16:34:18Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion [117.95224531331142]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Deep Person Generation: A Survey from the Perspective of Face, Pose and
Cloth Synthesis [55.72674354651122]
まず、まず、人物生成の範囲を要約し、それから、最新の進歩と深い人物生成の技術的トレンドを体系的にレビューする。
200以上の論文が網羅的に紹介され、重要な技術的ブレークスルーを見るためにマイルストーンの作業が強調されている。
この調査は、ディープ・パーソン・ジェネレーションの将来的な展望に光を当て、デジタル・ヒューマンへの完全な応用のための有用な基盤を提供することを期待している。
論文 参考訳(メタデータ) (2021-09-05T14:15:24Z) - Image Synthesis with Adversarial Networks: a Comprehensive Survey and
Case Studies [41.00383742615389]
GAN(Generative Adversarial Networks)は、コンピュータビジョン、医学、自然言語処理など、さまざまなアプリケーション分野で非常に成功しています。
GANは、意味的に意味のあるサンプルを合成する複雑な分布を学習するための強力なモデルである。
本調査では,現時点の高速なGANの開発状況を踏まえ,画像合成の敵モデルに関する総合的なレビューを行う。
論文 参考訳(メタデータ) (2020-12-26T13:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。