論文の概要: RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images
- arxiv url: http://arxiv.org/abs/2409.03644v2
- Date: Wed, 13 Nov 2024 01:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:08:48.017741
- Title: RealisHuman: A Two-Stage Approach for Refining Malformed Human Parts in Generated Images
- Title(参考訳): RealisHuman: 生成画像中の不正な部分の補修のための2段階的アプローチ
- Authors: Benzhi Wang, Jingkai Zhou, Jingqi Bai, Yang Yang, Weihua Chen, Fan Wang, Zhen Lei,
- Abstract要約: 本稿ではRealisHumanという新しいポストプロセッシングソリューションを提案する。
手や顔などの現実的な人間の部品を、元の部品を参考に生成する。
第2に、修正されたヒトの部位をシームレスに、対応する位置に戻す。
- 参考スコア(独自算出の注目度): 24.042262870735087
- License:
- Abstract: In recent years, diffusion models have revolutionized visual generation, outperforming traditional frameworks like Generative Adversarial Networks (GANs). However, generating images of humans with realistic semantic parts, such as hands and faces, remains a significant challenge due to their intricate structural complexity. To address this issue, we propose a novel post-processing solution named RealisHuman. The RealisHuman framework operates in two stages. First, it generates realistic human parts, such as hands or faces, using the original malformed parts as references, ensuring consistent details with the original image. Second, it seamlessly integrates the rectified human parts back into their corresponding positions by repainting the surrounding areas to ensure smooth and realistic blending. The RealisHuman framework significantly enhances the realism of human generation, as demonstrated by notable improvements in both qualitative and quantitative metrics. Code is available at https://github.com/Wangbenzhi/RealisHuman.
- Abstract(参考訳): 近年、拡散モデルは視覚生成に革命をもたらし、GAN(Generative Adversarial Networks)のような従来のフレームワークを上回っている。
しかし、手や顔などの現実的な意味的な部分を持つ人間の画像を生成することは、複雑な構造上の複雑さのため、依然として重要な課題である。
この問題に対処するため,RealisHumanという新しいポストプロセッシングソリューションを提案する。
RealisHumanフレームワークは2段階で動作する。
まず、手や顔などの現実的な人間の部分を生成し、元の不正な部分を参照として使用し、元の画像と一貫した詳細を確保する。
第2に、周囲を塗り替えることで、整形されたヒトの部位をシームレスに統合し、スムーズでリアルなブレンディングを確実にする。
RealisHumanフレームワークは、質的および量的指標の両方において顕著な改善によって示されるように、人間の生成のリアリズムを著しく向上させる。
コードはhttps://github.com/Wangbenzhi/RealisHuman.comで入手できる。
関連論文リスト
- Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。
私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文 参考訳(メタデータ) (2024-09-25T14:56:37Z) - PSHuman: Photorealistic Single-view Human Reconstruction using Cross-Scale Diffusion [43.850899288337025]
PSHumanは、マルチビュー拡散モデルから事前情報を利用した人間のメッシュを明示的に再構築する新しいフレームワークである。
単視点の人間の画像に直接多視点拡散を適用すると、厳密な幾何学的歪みが生じることが判明した。
そこで我々は, SMPL-Xのようなパラメトリックモデルを用いて, 人間のポーズの断面形状の整合性を高めるために, 生成モデルを定式化した。
論文 参考訳(メタデータ) (2024-09-16T10:13:06Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion [114.15397904945185]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - DeepPortraitDrawing: Generating Human Body Images from Freehand Sketches [75.4318318890065]
本稿では、大まかに描かれたスケッチをリアルな人体画像に変換するためのフレームワークであるDeepDrawingを紹介する。
様々なポーズの下で複雑な体形を符号化するために,我々は局所的・言語的アプローチをとる。
本手法は,最新のスケッチ・ツー・イメージ合成技術よりもリアルな画像を生成する。
論文 参考訳(メタデータ) (2022-05-04T14:02:45Z) - Realistic Full-Body Anonymization with Surface-Guided GANs [7.37907896341367]
In-the-wild画像のためのリアルな人間を生成する新しい匿名化手法を提案する。
我々の設計の鍵となる部分は、画像と正準3次元表面との間の高密度画素対面対応により、対向ネットを誘導することである。
表面誘導は画像品質とサンプルの多様性を著しく改善し、非常に実用的なジェネレータが得られることを示した。
論文 参考訳(メタデータ) (2022-01-06T18:57:59Z) - Style and Pose Control for Image Synthesis of Humans from a Single
Monocular View [78.6284090004218]
StylePoseGANは、ポーズと外観のコンディショニングを別々に受け入れる非制御発電機です。
我々のネットワークは、人間のイメージで完全に教師された方法で訓練され、ポーズ、外観、体の部分を切り離すことができる。
StylePoseGANは、一般的な知覚メトリクスで最新の画像生成忠実度を実現します。
論文 参考訳(メタデータ) (2021-02-22T18:50:47Z) - Learning Inverse Rendering of Faces from Real-world Videos [52.313931830408386]
既存の方法は、顔画像を3つの構成要素(アルベド、ノーマル、照明)に分解する。
本稿では,アルベドと正常の整合性の仮定に基づいて,我々のモデルを実顔ビデオでトレーニングするための弱い教師付きトレーニング手法を提案する。
私たちのネットワークは、実データと合成データの両方で訓練されています。
論文 参考訳(メタデータ) (2020-03-26T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。