論文の概要: Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation
- arxiv url: http://arxiv.org/abs/2403.10731v1
- Date: Fri, 15 Mar 2024 23:31:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 22:04:53.152682
- Title: Giving a Hand to Diffusion Models: a Two-Stage Approach to Improving Conditional Human Image Generation
- Title(参考訳): 拡散モデルに手を与える:条件付き画像生成における2段階的アプローチ
- Authors: Anton Pelykh, Ozge Mercanoglu Sincan, Richard Bowden,
- Abstract要約: ポーズ条件付き人間の画像生成に新たなアプローチを導入し,その過程を2段階に分けた。
ハンドイメージとそれに対応するセグメンテーションマスクの両方を生成するために,マルチタスク設定でハンドジェネレータを訓練する。
適応されたコントロールネットモデルが第2段階で使用され、生成された手の周りにボディを塗り替え、最終的な結果が生成される。
- 参考スコア(独自算出の注目度): 29.79050316749927
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent years have seen significant progress in human image generation, particularly with the advancements in diffusion models. However, existing diffusion methods encounter challenges when producing consistent hand anatomy and the generated images often lack precise control over the hand pose. To address this limitation, we introduce a novel approach to pose-conditioned human image generation, dividing the process into two stages: hand generation and subsequent body out-painting around the hands. We propose training the hand generator in a multi-task setting to produce both hand images and their corresponding segmentation masks, and employ the trained model in the first stage of generation. An adapted ControlNet model is then used in the second stage to outpaint the body around the generated hands, producing the final result. A novel blending technique is introduced to preserve the hand details during the second stage that combines the results of both stages in a coherent way. This involves sequential expansion of the out-painted region while fusing the latent representations, to ensure a seamless and cohesive synthesis of the final image. Experimental evaluations demonstrate the superiority of our proposed method over state-of-the-art techniques, in both pose accuracy and image quality, as validated on the HaGRID dataset. Our approach not only enhances the quality of the generated hands but also offers improved control over hand pose, advancing the capabilities of pose-conditioned human image generation. The source code of the proposed approach is available at https://github.com/apelykh/hand-to-diffusion.
- Abstract(参考訳): 近年,人間の画像生成,特に拡散モデルの発展が著しい進歩を遂げている。
しかし、既存の拡散法は、一貫した手解剖を作成する際に問題に遭遇し、生成された画像は手ポーズの正確な制御を欠いていることが多い。
この制限に対処するために、ポーズ条件付き人体画像生成の新たなアプローチを導入し、プロセスを2段階に分割する。
本稿では,手動画像とそれに対応するセグメンテーションマスクの両方を生成するために,マルチタスク設定で手動生成装置を訓練し,第1世代にトレーニングモデルを適用することを提案する。
適応されたコントロールネットモデルが第2段階で使用され、生成された手の周りにボディを塗り替え、最終的な結果が生成される。
両ステージの結果をコヒーレントな方法で組み合わせた第2段階のハンドディテールを維持するために, 新規なブレンディング技術が導入された。
これは、最終像のシームレスで密着的な合成を保証するために、潜在表現を融合させながら、塗装された領域を順次拡張することを含む。
実験により,HGRIDデータセットで検証した精度と画質の両面において,提案手法が最先端技術よりも優れていることを示す。
提案手法は生成した手の品質を向上するだけでなく、ポーズ条件付き人体画像生成の能力を向上させるとともに、手ポーズの制御も改善する。
提案されたアプローチのソースコードはhttps://github.com/apelykh/hand-to-diffusionで公開されている。
関連論文リスト
- Adaptive Multi-Modal Control of Digital Human Hand Synthesis Using a Region-Aware Cycle Loss [12.565642618427844]
拡散モデルは、特定のポーズで人間の生成を含むイメージを合成することができる。
現在のモデルは、詳細なポーズ生成のための条件制御を適切に表現する上で課題に直面している。
本研究では,手指領域の改善に焦点をあてる拡散モデルトレーニングを実現するRACL(Regional-Aware Cycle Loss)を提案する。
論文 参考訳(メタデータ) (2024-09-13T19:09:19Z) - Improving Diffusion Models for Authentic Virtual Try-on in the Wild [53.96244595495942]
本稿では,キュレートされた衣服を身に着けている人のイメージをレンダリングする,イメージベースの仮想試行について考察する。
衣服の忠実度を改善し,仮想試行画像を生成する新しい拡散モデルを提案する。
本稿では,一対の人着画像を用いたカスタマイズ手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T08:12:18Z) - HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances [34.50137847908887]
テキスト・ツー・イメージ生成モデルは高品質な人間を生み出すことができるが、現実主義は手を生成する際に失われる。
一般的なアーティファクトには、不規則な手ポーズ、形、不正確な指の数、物理的に不明瞭な指の向きなどがある。
そこで我々はHanDiffuserという新しい拡散型アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-04T03:00:22Z) - TCIG: Two-Stage Controlled Image Generation with Quality Enhancement
through Diffusion [0.0]
画像生成における制御性と高品質を両立させる2段階の手法を提案する。
制御性と高品質を分離することにより,優れた結果が得られる。
論文 参考訳(メタデータ) (2024-03-02T13:59:02Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Annotated Hands for Generative Models [17.494997005870754]
GANや拡散モデルのような生成モデルは印象的な画像生成能力を示している。
本稿では,手動画像作成能力を大幅に向上する生成モデルのための新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-26T18:57:54Z) - HandRefiner: Refining Malformed Hands in Generated Images by Diffusion-based Conditional Inpainting [72.95232302438207]
拡散モデルは現実的な画像の生成において顕著な成功を収めた。
しかし、不正確な指数や不規則な形など、正確な人間の手を生成することに苦しむ。
本稿では,HandRefinerという軽量な後処理ソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-29T08:52:08Z) - CoDi: Conditional Diffusion Distillation for Higher-Fidelity and Faster
Image Generation [49.3016007471979]
大規模な生成拡散モデルは、テキスト・ツー・イメージ生成に革命をもたらし、条件付き生成タスクに大きな可能性を秘めている。
しかし、彼らの普及は高い計算コストによって妨げられ、リアルタイムの応用が制限される。
本稿では,事前学習した潜伏拡散モデルに付加的な画像条件入力を適応させるCoDiという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T17:59:18Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - HandNeRF: Neural Radiance Fields for Animatable Interacting Hands [122.32855646927013]
神経放射場(NeRF)を用いて手の動きを正確に再現する新しい枠組みを提案する。
我々は,提案するHandNeRFのメリットを検証するための広範囲な実験を行い,その成果を報告する。
論文 参考訳(メタデータ) (2023-03-24T06:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。