論文の概要: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image
Generation
- arxiv url: http://arxiv.org/abs/2304.04269v1
- Date: Sun, 9 Apr 2023 16:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 16:43:33.476816
- Title: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image
Generation
- Title(参考訳): HumanSD:人間の画像生成のためのネイティブ骨格誘導拡散モデル
- Authors: Xuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, Qiang Xu
- Abstract要約: 我々はHumanSDと呼ばれる制御可能な人体画像生成のためのネイティブスケルトン誘導拡散モデルを提案する。
デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて、元のSDモデルを微調整する。
HumanSDは、特に与えられたスケルトンガイダンスが洗練された場合、正確なポーズ制御と画質の点で、ControlNetより優れています。
- 参考スコア(独自算出の注目度): 14.431687280402356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable human image generation (HIG) has numerous real-life
applications. State-of-the-art solutions, such as ControlNet and T2I-Adapter,
introduce an additional learnable branch on top of the frozen pre-trained
stable diffusion (SD) model, which can enforce various conditions, including
skeleton guidance of HIG. While such a plug-and-play approach is appealing, the
inevitable and uncertain conflicts between the original images produced from
the frozen SD branch and the given condition incur significant challenges for
the learnable branch, which essentially conducts image feature editing for
condition enforcement. In this work, we propose a native skeleton-guided
diffusion model for controllable HIG called HumanSD. Instead of performing
image editing with dual-branch diffusion, we fine-tune the original SD model
using a novel heatmap-guided denoising loss. This strategy effectively and
efficiently strengthens the given skeleton condition during model training
while mitigating the catastrophic forgetting effects. HumanSD is fine-tuned on
the assembly of three large-scale human-centric datasets with text-image-pose
information, two of which are established in this work. As shown in Figure 1,
HumanSD outperforms ControlNet in terms of accurate pose control and image
quality, particularly when the given skeleton guidance is sophisticated.
- Abstract(参考訳): 制御可能な人体画像生成(HIG)は多くの実物応用がある。
ControlNetやT2I-Adapterといった最先端のソリューションでは、凍結した事前訓練された安定拡散(SD)モデルの上に、新たな学習可能なブランチが導入されている。
このようなプラグ・アンド・プレイのアプローチは魅力的だが、凍結したSDブランチから生成された元のイメージと、条件付きで画像の特徴を編集する学習可能なブランチには、必然的かつ不確実な競合が生じている。
本研究では,制御可能な hig のためのネイティブスケルトン誘導拡散モデル humand を提案する。
デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて元のSDモデルを微調整する。
この戦略は、破滅的な忘れる効果を緩和しながら、モデルトレーニング中に与えられた骨格条件を効果的かつ効率的に強化する。
HumanSDは3つの大規模な人間中心のデータセットとテキスト画像情報に基づいて微調整される。
図1に示すように、humandは、与えられた骨格指導が洗練されている場合に、正確なポーズ制御と画質の観点からコントロールネットを上回る。
関連論文リスト
- Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation [1.3654846342364308]
本研究では、事前訓練されたテキスト・画像拡散モデルにおいて、人間の形状とポーズを条件付きで制御する手法を提案する。
これらの拡散モデルを微調整して新しい条件に適合させるには、大きなデータセットと高品質なアノテーションが必要である。
合成条件情報を分離することで画像品質を維持するドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T14:02:41Z) - GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation [7.0646249774097525]
本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。
拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。
PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-18T04:05:59Z) - CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。
CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。
本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文 参考訳(メタデータ) (2024-08-22T14:12:20Z) - DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文 参考訳(メタデータ) (2024-04-01T18:59:13Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。
次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。
画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文 参考訳(メタデータ) (2022-12-06T18:39:58Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。