論文の概要: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image
Generation
- arxiv url: http://arxiv.org/abs/2304.04269v1
- Date: Sun, 9 Apr 2023 16:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:43:33.476816
- Title: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image
Generation
- Title(参考訳): HumanSD:人間の画像生成のためのネイティブ骨格誘導拡散モデル
- Authors: Xuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, Qiang Xu
- Abstract要約: 我々はHumanSDと呼ばれる制御可能な人体画像生成のためのネイティブスケルトン誘導拡散モデルを提案する。
デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて、元のSDモデルを微調整する。
HumanSDは、特に与えられたスケルトンガイダンスが洗練された場合、正確なポーズ制御と画質の点で、ControlNetより優れています。
- 参考スコア(独自算出の注目度): 14.431687280402356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable human image generation (HIG) has numerous real-life
applications. State-of-the-art solutions, such as ControlNet and T2I-Adapter,
introduce an additional learnable branch on top of the frozen pre-trained
stable diffusion (SD) model, which can enforce various conditions, including
skeleton guidance of HIG. While such a plug-and-play approach is appealing, the
inevitable and uncertain conflicts between the original images produced from
the frozen SD branch and the given condition incur significant challenges for
the learnable branch, which essentially conducts image feature editing for
condition enforcement. In this work, we propose a native skeleton-guided
diffusion model for controllable HIG called HumanSD. Instead of performing
image editing with dual-branch diffusion, we fine-tune the original SD model
using a novel heatmap-guided denoising loss. This strategy effectively and
efficiently strengthens the given skeleton condition during model training
while mitigating the catastrophic forgetting effects. HumanSD is fine-tuned on
the assembly of three large-scale human-centric datasets with text-image-pose
information, two of which are established in this work. As shown in Figure 1,
HumanSD outperforms ControlNet in terms of accurate pose control and image
quality, particularly when the given skeleton guidance is sophisticated.
- Abstract(参考訳): 制御可能な人体画像生成(HIG)は多くの実物応用がある。
ControlNetやT2I-Adapterといった最先端のソリューションでは、凍結した事前訓練された安定拡散(SD)モデルの上に、新たな学習可能なブランチが導入されている。
このようなプラグ・アンド・プレイのアプローチは魅力的だが、凍結したSDブランチから生成された元のイメージと、条件付きで画像の特徴を編集する学習可能なブランチには、必然的かつ不確実な競合が生じている。
本研究では,制御可能な hig のためのネイティブスケルトン誘導拡散モデル humand を提案する。
デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて元のSDモデルを微調整する。
この戦略は、破滅的な忘れる効果を緩和しながら、モデルトレーニング中に与えられた骨格条件を効果的かつ効率的に強化する。
HumanSDは3つの大規模な人間中心のデータセットとテキスト画像情報に基づいて微調整される。
図1に示すように、humandは、与えられた骨格指導が洗練されている場合に、正確なポーズ制御と画質の観点からコントロールネットを上回る。
関連論文リスト
- Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation [7.0646249774097525]
本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T04:05:59Z) - CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。