論文の概要: Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation
- arxiv url: http://arxiv.org/abs/2403.05239v1
- Date: Fri, 8 Mar 2024 11:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 20:11:53.004279
- Title: Towards Effective Usage of Human-Centric Priors in Diffusion Models for
Text-based Human Image Generation
- Title(参考訳): テキストベース画像生成のための拡散モデルにおける人間中心の事前利用に向けて
- Authors: Junyan Wang, Zhenhong Sun, Zhiyu Tan, Xuanbai Chen, Weihua Chen, Hao
Li, Cheng Zhang, Yang Song
- Abstract要約: バニラテキスト画像拡散モデルでは、正確な人間の画像を生成するのに苦労する。
既存のメソッドは、主に余分なイメージでモデルを微調整したり、追加のコントロールを追加することでこの問題に対処する。
本稿では,人間中心の先行概念のモデル微調整段階への直接統合について検討する。
- 参考スコア(独自算出の注目度): 24.49857926071974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vanilla text-to-image diffusion models struggle with generating accurate
human images, commonly resulting in imperfect anatomies such as unnatural
postures or disproportionate limbs.Existing methods address this issue mostly
by fine-tuning the model with extra images or adding additional controls --
human-centric priors such as pose or depth maps -- during the image generation
phase. This paper explores the integration of these human-centric priors
directly into the model fine-tuning stage, essentially eliminating the need for
extra conditions at the inference stage. We realize this idea by proposing a
human-centric alignment loss to strengthen human-related information from the
textual prompts within the cross-attention maps. To ensure semantic detail
richness and human structural accuracy during fine-tuning, we introduce
scale-aware and step-wise constraints within the diffusion process, according
to an in-depth analysis of the cross-attention layer. Extensive experiments
show that our method largely improves over state-of-the-art text-to-image
models to synthesize high-quality human images based on user-written prompts.
Project page: \url{https://hcplayercvpr2024.github.io}.
- Abstract(参考訳): バニラのテキストと画像の拡散モデルは、正確な人間の画像を生成するのに苦労し、通常、不自然な姿勢や不均等な手足のような不完全な解剖を引き起こす。既存の方法は、画像の追加や、ポーズや深度マップのような人間中心の事前制御を追加することで、この問題に対処する。
本稿では、これらの人間中心の先行概念をモデル微調整段階に直接統合し、推論段階における余分な条件の必要性を排除した。
我々は,人間中心のアライメント損失を提案すれば,クロスアテンションマップ内の文章的プロンプトから人間関連情報を強化することができる。
微調整中のセマンティックディテールの豊かさと人間の構造的精度を確保するため,クロスアテンション層の詳細な分析により,拡散過程におけるスケールアウェアとステップワイドの制約を導入する。
広汎な実験により,ユーザによるプロンプトに基づく高品質な人体画像の合成において,最先端のテキスト画像モデルよりも大幅に改善されていることがわかった。
プロジェクトページ: \url{https://hcplayercvpr2024.github.io}
関連論文リスト
- Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [70.58988592832684]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - DPoser: Diffusion Model as Robust 3D Human Pose Prior [50.390006148133764]
拡散モデルに基づいて構築された,頑丈で多目的な人間のポーズであるDPoserを紹介する。
DPoserは、ヒューマンメッシュリカバリ、ポーズ完了、モーションデノイングなど、さまざまなポーズ中心のアプリケーションにシームレスに統合される。
我々の徹底的な実験は、DPoserが複数のタスクにまたがる既存の最先端のポーズよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-09T11:18:45Z) - High-fidelity Person-centric Subject-to-Image Synthesis [15.059651360660073]
Face-diffuserは、上記のトレーニングの不均衡と品質の妥協を取り除くための効果的な協調生成パイプラインである。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
新規かつ高能率なノイズ融合(Saliency-Adaptive Noise Fusion)によって達成された,主題・場面の融合段階である。
論文 参考訳(メタデータ) (2023-11-17T05:03:53Z) - HyperHuman: Hyper-Realistic Human Generation with Latent Structural
Diffusion [117.95224531331142]
本稿では,高リアリズムと多彩なレイアウトの人体画像を生成する統一的なフレームワークHyperHumanを提案する。
本モデルは,統合ネットワークにおける画像の外観,空間的関係,幾何学の連成学習を強制する。
我々のフレームワークは最先端の性能を生み出し、多様なシナリオ下で超現実的な人間の画像を生成する。
論文 参考訳(メタデータ) (2023-10-12T17:59:34Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - HumanDiffusion: a Coarse-to-Fine Alignment Diffusion Framework for
Controllable Text-Driven Person Image Generation [73.3790833537313]
制御可能な人物画像生成は、デジタルヒューマンインタラクションや仮想トライオンといった幅広い応用を促進する。
テキスト駆動型人物画像生成のための粗大なアライメント拡散フレームワークHumanDiffusionを提案する。
論文 参考訳(メタデータ) (2022-11-11T14:30:34Z) - Pose Guided Human Image Synthesis with Partially Decoupled GAN [25.800174118151638]
Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する難しいタスクである。
本研究では,人体を複数の部分に分解し,現実的な人物像の合成を誘導する手法を提案する。
さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。
論文 参考訳(メタデータ) (2022-10-07T15:31:37Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Structure-aware Person Image Generation with Pose Decomposition and
Semantic Correlation [29.727033198797518]
高品質な人物画像生成のための構造認識フローベース手法を提案する。
人体を異なる意味部分に分解し、異なるネットワークを適用してこれらの部分のフロー場を別々に予測する。
提案手法は,ポーズの相違が大きい場合に高品質な結果を生成することができ,定性比較と定量的比較の両方において最先端の手法より優れる。
論文 参考訳(メタデータ) (2021-02-05T03:07:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。