Fugu-MT 論文翻訳(概要): Human Image Generation: A Comprehensive Survey

論文の概要: Human Image Generation: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2212.08896v1
Date: Sat, 17 Dec 2022 15:19:45 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-20 17:23:49.830890
Title: Human Image Generation: A Comprehensive Survey
Title（参考訳）: 人間の画像生成: 総合的な調査
Authors: Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan
Abstract要約: 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。異なる手法の利点と特徴は、モデルアーキテクチャと入出力要求の観点から要約される。幅広い応用可能性のために、合成された人間の画像の典型的なダウンストリーム利用、すなわち、個人認識タスクのためのデータ拡張と、ファッション顧客のためのバーチャルトライオンの2つがカバーされている。
参考スコア（独自算出の注目度）: 60.63589576693112
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various deep generative models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each route, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures and input/output requirements. Besides, the main public human image datasets and evaluation metrics in the literature are also summarized. Furthermore, due to the wide application potentials, two typical downstream usages of synthesized human images are covered, i.e., data augmentation for person recognition tasks and virtual try-on for fashion customers. Finally, we discuss the challenges and potential directions of human image generation to shed light on future research.
Abstract（参考訳）: 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。多くの研究者は、人間像を日常生活で最もよく見られる対象のカテゴリの1つとして合成することに力を入れており、様々な深層生成モデル、タスク設定、アプリケーションに基づいて多くの研究が行われている。したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。それぞれの経路について、最も代表的なモデルと対応するバリエーションが提示され、そこで異なる手法の利点と特徴をモデルアーキテクチャと入出力要求という観点で要約する。また、文献における主要な公開画像データセットと評価指標についても概説する。さらに、幅広い応用可能性から、人物認識タスクのためのデータ拡張やファッション顧客のための仮想トライオンという、合成された人間の画像の2つの典型的下流利用をカバーできる。最後に,人間の画像生成の課題と今後の研究の方向性について考察する。

関連論文リスト

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-12T16:38:40Z)
Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文参考訳（メタデータ） (2024-12-04T04:02:17Z)
Exploring Social Media Image Categorization Using Large Models with Different Adaptation Methods: A Case Study on Cultural Nature's Contributions to People [1.7736307382785161]
ソーシャルメディアの画像は、自然と文化の遺産との人間の相互作用をモデル化、マッピング、理解するための貴重な洞察を提供する。これらの画像を意味論的に意味のあるグループに分類することは、その視覚内容の多様性と異質性のために、依然として非常に複雑である。 FLIPSは、人間と自然の相互作用を捉えたFlickr画像のデータセットである。我々は,様々な適応手法を用いて,大規模モデルの異なる型と組み合わせに基づく様々な解を評価する。
論文参考訳（メタデータ） (2024-09-30T23:04:55Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。 HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文参考訳（メタデータ） (2024-06-18T10:05:33Z)
Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。 GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文参考訳（メタデータ） (2024-04-04T07:26:26Z)
Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-03-13T16:05:18Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文参考訳（メタデータ） (2023-09-13T19:33:26Z)
Image Synthesis with Adversarial Networks: a Comprehensive Survey and Case Studies [41.00383742615389]
GAN(Generative Adversarial Networks)は、コンピュータビジョン、医学、自然言語処理など、さまざまなアプリケーション分野で非常に成功しています。 GANは、意味的に意味のあるサンプルを合成する複雑な分布を学習するための強力なモデルである。本調査では,現時点の高速なGANの開発状況を踏まえ,画像合成の敵モデルに関する総合的なレビューを行う。
論文参考訳（メタデータ） (2020-12-26T13:30:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。