Fugu-MT 論文翻訳(概要): Diffusion-HPC: Generating Synthetic Images with Realistic Humans

論文の概要: Diffusion-HPC: Generating Synthetic Images with Realistic Humans

arxiv url: http://arxiv.org/abs/2303.09541v1
Date: Thu, 16 Mar 2023 17:53:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-17 14:08:20.146837
Title: Diffusion-HPC: Generating Synthetic Images with Realistic Humans
Title（参考訳）: 拡散HPC:リアルな人間による合成画像の生成
Authors: Zhenzhen Weng, Laura Bravo-S\'anchez, Serena Yeung
Abstract要約: 拡散HPCは、人体構造に関する事前の知識を注入することにより、可視なポーズを持つ写真リアリスティック画像を生成する。拡散HPCは,人間の世代におけるリアリズムを効果的に改善することを示す。世代には地上の真実として機能する3Dメッシュが伴うため、Diffusion HPCの生成したイメージ-メッシュペアは、下流のヒューマンメッシュリカバリタスクに適している。
参考スコア（独自算出の注目度）: 15.535861566051237
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent text-to-image generative models have exhibited remarkable abilities in generating high-fidelity and photo-realistic images. However, despite the visually impressive results, these models often struggle to preserve plausible human structure in the generations. Due to this reason, while generative models have shown promising results in aiding downstream image recognition tasks by generating large volumes of synthetic data, they remain infeasible for improving downstream human pose perception and understanding. In this work, we propose Diffusion model with Human Pose Correction (Diffusion HPC), a text-conditioned method that generates photo-realistic images with plausible posed humans by injecting prior knowledge about human body structure. We show that Diffusion HPC effectively improves the realism of human generations. Furthermore, as the generations are accompanied by 3D meshes that serve as ground truths, Diffusion HPC's generated image-mesh pairs are well-suited for downstream human mesh recovery task, where a shortage of 3D training data has long been an issue.
Abstract（参考訳）: 近年のテキストから画像への生成モデルは、高忠実度およびフォトリアリスティックな画像を生成する優れた能力を発揮している。しかし、視覚的に印象的な結果にもかかわらず、これらのモデルはしばしば、世代でもっともらしい人間の構造を維持するのに苦労する。このため、大量の合成データを生成して下流画像認識タスクを支援する有望な結果が得られたが、下流の人間のポーズ知覚や理解を改善するには至っていない。本研究では,人体構造に関する事前知識を注入することにより,人体に提示可能な写真実写画像を生成するテキスト条件付きDiffusion Model with Human Pose Correction (Diffusion HPC)を提案する。拡散hpcは人間の世代のリアリズムを効果的に改善することを示す。さらに、世代が基盤となる3dメッシュを伴っているため、3dトレーニングデータの不足が長年問題となっている下流のヒューマンメッシュリカバリタスクには、ディフュージョンhpcが生成したイメージメッシュペアが適している。

関連論文リスト

HuGeDiff: 3D Human Generation via Diffusion with Gaussian Splatting [33.9893684177763]
現在の手法は、細部、手と顔の正確なレンダリング、人間のリアリズム、外観に対する制御性に苦慮している。これらの課題に対処しようとする弱教師付きパイプラインを提示する。我々は、最先端のアプローチと比較して、3次元の人間の世代において、オーダー・オブ・マグニチュード・スピードアップを実演する。
論文参考訳（メタデータ） (2025-06-04T18:11:23Z)
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds [21.99354901986186]
フィードフォワードパスで3次元ガウススプラッティングを表現した高忠実度アバターを推定するためのLHM(Large Animatable Human Reconstruction Model)を提案する。本モデルでは,マルチモーダルトランスフォーマーアーキテクチャを用いて,人体の位置や画像の特徴を効果的に符号化する。我々のLHMは、顔と手を後処理することなく、数秒で可塑性アニマタブルな人間を生成し、再現精度と一般化能力の両方において既存の手法より優れています。
論文参考訳（メタデータ） (2025-03-13T17:59:21Z)
HumanGif: Single-View Human Diffusion with Generative Prior [25.516544735593087]
本稿では, 先行生成に基づく単一ビューヒト拡散モデルであるHumanGifを提案する。具体的には、単一ビューに基づく3次元人間の新しいビューを定式化し、単一ビュー条件のヒト拡散過程として合成する。我々は,HumanGifが最高の知覚性能を達成し,新しい視点とポーズ合成の一般化性が向上したことを示す。
論文参考訳（メタデータ） (2025-02-17T17:55:27Z)
GAS: Generative Avatar Synthesis from a Single Image [54.95198111659466]
一つの画像からビュー一貫性と時間的コヒーレントなアバターを合成するための、一般化可能で統一されたフレームワークを導入する。提案手法は, 回帰に基づく3次元再構成と拡散モデルの生成能力を組み合わせることで, このギャップを埋めるものである。
論文参考訳（メタデータ） (2025-02-10T19:00:39Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
GeneMAN: Generalizable Single-Image 3D Human Reconstruction from Multi-Source Human Data [61.05815629606135]
高忠実度3Dモデルを構築するのが難しい課題です。 GeneMANは高品質な人間のデータを総合的に収集する。 GeneMANは、単一の画像入力から高品質な3Dモデルを生成することができ、最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-11-27T18:59:54Z)
Detecting Human Artifacts from Text-to-Image Models [16.261759535724778]
人体を含む画像を含む画像を含む画像を含むデータセット。画像には、人間の身体の歪んだ部分や欠けた部分を含む、未生成の人間の身体の画像が含まれている。
論文参考訳（メタデータ） (2024-11-21T05:02:13Z)
PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文参考訳（メタデータ） (2024-09-16T10:13:06Z)
Boost Your Own Human Image Generation Model via Direct Preference Optimization with AI Feedback [5.9726297901501475]
直接選好最適化(DPO)を利用した人体画像生成に特化した新しいアプローチを提案する。具体的には、コストのかかる人的フィードバックを必要とせずに、人間の画像生成モデルを訓練するための特殊なDPOデータセットを構築するための効率的な方法を提案する。本手法は,画像のパーソナライズ・テキスト・ツー・イメージ生成など,画像生成の汎用性と有効性を示す。
論文参考訳（メタデータ） (2024-05-30T16:18:05Z)
3D Human Reconstruction in the Wild with Synthetic Data Using Generative Models [52.96248836582542]
本稿では,人間の画像とそれに対応する3Dメッシュアノテーションをシームレスに生成できるHumanWildという,最近の拡散モデルに基づく効果的なアプローチを提案する。生成モデルを排他的に活用することにより,大規模な人体画像と高品質なアノテーションを生成し,実世界のデータ収集の必要性を解消する。
論文参考訳（メタデータ） (2024-03-17T06:31:16Z)
InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。 InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文参考訳（メタデータ） (2023-11-27T15:49:41Z)
HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文参考訳（メタデータ） (2023-10-12T17:59:34Z)
Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文参考訳（メタデータ） (2023-09-02T13:32:14Z)
DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。 SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文参考訳（メタデータ） (2023-04-03T12:11:51Z)
Brain Imaging Generation with Latent Diffusion Models [2.200720122706913]
本研究では,高分解能3次元脳画像から合成画像を生成するために潜在拡散モデルを用いて検討する。我々のモデルは現実的なデータを作成し、条件変数を使ってデータ生成を効果的に制御できることがわかった。
論文参考訳（メタデータ） (2022-09-15T09:16:21Z)
LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文参考訳（メタデータ） (2021-11-30T04:10:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。