論文の概要: Human Image Generation: A Comprehensive Survey
- arxiv url: http://arxiv.org/abs/2212.08896v3
- Date: Fri, 24 May 2024 03:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 00:35:17.293200
- Title: Human Image Generation: A Comprehensive Survey
- Title(参考訳): 人間の画像生成: 総合的な調査
- Authors: Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan,
- Abstract要約: 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
異なる手法の利点と特徴はモデルアーキテクチャの観点から要約される。
広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。
- 参考スコア(独自算出の注目度): 44.204029557298476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each paradigm, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures. Besides, the main public human image datasets and evaluation metrics in the literature are summarized. Furthermore, due to the wide application potentials, the typical downstream usages of synthesized human images are covered. Finally, the challenges and potential opportunities of human image generation are discussed to shed light on future research.
- Abstract(参考訳): 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。
多くの研究者は、多種多様なモデル、タスク設定、応用に基づいて多数の研究が行われる、日常生活で最もよく見られる対象カテゴリの1つとして、高忠実な人間の画像の合成に熱心に取り組んできた。
したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。
本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。
各パラダイムについて、最も代表的なモデルと対応する変種を示し、異なる手法の利点と特徴をモデルアーキテクチャの観点で要約する。
さらに、文献における主要な人体画像データセットと評価指標を要約する。
さらに、広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。
最後に、人間の画像生成の課題と可能性について論じ、今後の研究に光を当てる。
関連論文リスト
- Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。
我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。
この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-12T16:38:40Z) - Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。
具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。
提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-04T04:02:17Z) - Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。
我々は500人以上の参加者から行動データの35万件の試行を収集した。
次に、一般的な視覚モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-09-09T17:59:13Z) - HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。
HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文 参考訳(メタデータ) (2024-06-18T10:05:33Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。
テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。
本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T19:33:26Z) - Image Synthesis with Adversarial Networks: a Comprehensive Survey and
Case Studies [41.00383742615389]
GAN(Generative Adversarial Networks)は、コンピュータビジョン、医学、自然言語処理など、さまざまなアプリケーション分野で非常に成功しています。
GANは、意味的に意味のあるサンプルを合成する複雑な分布を学習するための強力なモデルである。
本調査では,現時点の高速なGANの開発状況を踏まえ,画像合成の敵モデルに関する総合的なレビューを行う。
論文 参考訳(メタデータ) (2020-12-26T13:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。