論文の概要: Human Image Generation: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2212.08896v1
- Date: Sat, 17 Dec 2022 15:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 17:23:49.830890
- Title: Human Image Generation: A Comprehensive Survey
- Title(参考訳): 人間の画像生成: 総合的な調査
- Authors: Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan
- Abstract要約: 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。
幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
- 参考スコア(独自算出の注目度): 60.63589576693112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video synthesis has become a blooming topic in computer vision and
machine learning communities along with the developments of deep generative
models, due to its great academic and application value. Many researchers have
been devoted to synthesizing high-fidelity human images as one of the most
commonly seen object categories in daily lives, where a large number of studies
are performed based on various deep generative models, task settings and
applications. Thus, it is necessary to give a comprehensive overview on these
variant methods on human image generation. In this paper, we divide human image
generation techniques into three paradigms, i.e., data-driven methods,
knowledge-guided methods and hybrid methods. For each route, the most
representative models and the corresponding variants are presented, where the
advantages and characteristics of different methods are summarized in terms of
model architectures and input/output requirements. Besides, the main public
human image datasets and evaluation metrics in the literature are also
summarized. Furthermore, due to the wide application potentials, two typical
downstream usages of synthesized human images are covered, i.e., data
augmentation for person recognition tasks and virtual try-on for fashion
customers. Finally, we discuss the challenges and potential directions of human
image generation to shed light on future research.
- Abstract(参考訳): 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。
多くの研究者は、人間像を日常生活で最もよく見られる対象のカテゴリの1つとして合成することに力を入れており、様々な深層生成モデル、タスク設定、アプリケーションに基づいて多くの研究が行われている。
したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
それぞれの経路について、最も代表的なモデルと対応するバリエーションが提示され、そこで異なる手法の利点と特徴をモデルアーキテクチャと入出力要求という観点で要約する。
また、文献における主要な公開画像データセットと評価指標についても概説する。
さらに、幅広い応用可能性から、人物認識タスクのためのデータ拡張やファッション顧客のための仮想トライオンという、合成された人間の画像の2つの典型的下流利用をカバーできる。
最後に,人間の画像生成の課題と今後の研究の方向性について考察する。
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。
そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。
GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文 参考訳(メタデータ) (2024-04-04T07:26:26Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - Image Synthesis with Adversarial Networks: a Comprehensive Survey and
Case Studies [41.00383742615389]
GAN(Generative Adversarial Networks)は、コンピュータビジョン、医学、自然言語処理など、さまざまなアプリケーション分野で非常に成功しています。
GANは、意味的に意味のあるサンプルを合成する複雑な分布を学習するための強力なモデルである。
本調査では,現時点の高速なGANの開発状況を踏まえ,画像合成の敵モデルに関する総合的なレビューを行う。
論文 参考訳(メタデータ) (2020-12-26T13:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。