Fugu-MT 論文翻訳(概要): Human Image Generation: A Comprehensive Survey

論文の概要: Human Image Generation: A Comprehensive Survey

arxiv url: http://arxiv.org/abs/2212.08896v3
Date: Fri, 24 May 2024 03:33:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 00:35:17.293200
Title: Human Image Generation: A Comprehensive Survey
Title（参考訳）: 人間の画像生成: 総合的な調査
Authors: Zhen Jia, Zhang Zhang, Liang Wang, Tieniu Tan,
Abstract要約: 本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。異なる手法の利点と特徴はモデルアーキテクチャの観点から要約される。広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。
参考スコア（独自算出の注目度）: 44.204029557298476
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Image and video synthesis has become a blooming topic in computer vision and machine learning communities along with the developments of deep generative models, due to its great academic and application value. Many researchers have been devoted to synthesizing high-fidelity human images as one of the most commonly seen object categories in daily lives, where a large number of studies are performed based on various models, task settings and applications. Thus, it is necessary to give a comprehensive overview on these variant methods on human image generation. In this paper, we divide human image generation techniques into three paradigms, i.e., data-driven methods, knowledge-guided methods and hybrid methods. For each paradigm, the most representative models and the corresponding variants are presented, where the advantages and characteristics of different methods are summarized in terms of model architectures. Besides, the main public human image datasets and evaluation metrics in the literature are summarized. Furthermore, due to the wide application potentials, the typical downstream usages of synthesized human images are covered. Finally, the challenges and potential opportunities of human image generation are discussed to shed light on future research.
Abstract（参考訳）: 画像とビデオの合成は、コンピュータビジョンと機械学習のコミュニティにおいて、その優れた学術的価値と応用価値から、深層生成モデルの発展とともに、華々しい話題となっている。多くの研究者は、多種多様なモデル、タスク設定、応用に基づいて多数の研究が行われる、日常生活で最もよく見られる対象カテゴリの1つとして、高忠実な人間の画像の合成に熱心に取り組んできた。したがって、人間の画像生成におけるこれらの変種手法の概要を概観する必要がある。本稿では,人間の画像生成技術を3つのパラダイム,すなわちデータ駆動手法,知識誘導手法,ハイブリッド手法に分割する。各パラダイムについて、最も代表的なモデルと対応する変種を示し、異なる手法の利点と特徴をモデルアーキテクチャの観点で要約する。さらに、文献における主要な人体画像データセットと評価指標を要約する。さらに、広範囲の応用可能性により、合成された人間の画像の典型的な下流使用法がカバーされている。最後に、人間の画像生成の課題と可能性について論じ、今後の研究に光を当てる。

関連論文リスト

Human-Centric Foundation Models: Perception, Generation and Agentic Modeling [79.97999901785772]
人間中心のファンデーションモデルは、多様な人間中心のタスクを単一のフレームワークに統合します。我々は,現在のアプローチを4つのグループに分類する分類法を提案することで,HcFMの包括的概要を示す。この調査は、より堅牢で汎用的でインテリジェントなデジタルヒューマン・エンボディメントモデリングを目指す研究者や実践者のロードマップとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-12T16:38:40Z)
Human Multi-View Synthesis from a Single-View Model:Transferred Body and Face Representations [7.448124739584319]
人体と顔の表現を多視点合成に活用する革新的枠組みを提案する。具体的には、大規模人間のデータセットに事前訓練された単一ビューモデルを用いて、多視点ボディ表現を開発する。提案手法は現状の手法よりも優れており,多視点人間合成において優れた性能を発揮する。
論文参考訳（メタデータ） (2024-12-04T04:02:17Z)
Exploring Social Media Image Categorization Using Large Models with Different Adaptation Methods: A Case Study on Cultural Nature's Contributions to People [1.7736307382785161]
ソーシャルメディアの画像は、自然と文化の遺産との人間の相互作用をモデル化、マッピング、理解するための貴重な洞察を提供する。これらの画像を意味論的に意味のあるグループに分類することは、その視覚内容の多様性と異質性のために、依然として非常に複雑である。 FLIPSは、人間と自然の相互作用を捉えたFlickr画像のデータセットである。我々は,様々な適応手法を用いて,大規模モデルの異なる型と組み合わせに基づく様々な解を評価する。
論文参考訳（メタデータ） (2024-09-30T23:04:55Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
Evaluating Multiview Object Consistency in Humans and Image Models [68.36073530804296]
我々は、物体の形状に関するゼロショット視覚的推論を必要とする認知科学の実験的設計を活用する。我々は500人以上の参加者から行動データの35万件の試行を収集した。次に、一般的な視覚モデルの性能を評価する。
論文参考訳（メタデータ） (2024-09-09T17:59:13Z)
HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors [47.62426718293504]
HumanSplatは、単一の入力画像から、任意の人間の3次元ガウススプティング特性を予測する。 HumanSplatは、フォトリアリスティックなノベルビュー合成を実現するために、既存の最先端の手法を超越している。
論文参考訳（メタデータ） (2024-06-18T10:05:33Z)
Multi Positive Contrastive Learning with Pose-Consistent Generated Images [0.873811641236639]
我々は、同一の人間のポーズで視覚的に異なる画像を生成することを提案する。そこで我々は,これまで生成した画像を最適に活用する,新しいマルチ陽性コントラスト学習を提案する。 GenPoCCLは、現在の最先端技術に比べて1%未満のデータしか利用していないが、人間の身体の構造的特徴をより効果的に捉えている。
論文参考訳（メタデータ） (2024-04-04T07:26:26Z)
Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-03-13T16:05:18Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Limitations of Face Image Generation [12.11955119100926]
顔生成における生成モデルの有効性と欠点について検討した。テキストプロンプトへの忠実度、人口格差、分布変化など、顔画像生成のいくつかの制限を識別する。本稿では、学習データの選択が生成モデルの性能にどのように貢献するかを洞察する分析モデルを提案する。
論文参考訳（メタデータ） (2023-09-13T19:33:26Z)
Image Synthesis with Adversarial Networks: a Comprehensive Survey and Case Studies [41.00383742615389]
GAN(Generative Adversarial Networks)は、コンピュータビジョン、医学、自然言語処理など、さまざまなアプリケーション分野で非常に成功しています。 GANは、意味的に意味のあるサンプルを合成する複雑な分布を学習するための強力なモデルである。本調査では,現時点の高速なGANの開発状況を踏まえ,画像合成の敵モデルに関する総合的なレビューを行う。
論文参考訳（メタデータ） (2020-12-26T13:30:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。