Fugu-MT 論文翻訳(概要): HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation

論文の概要: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation

arxiv url: http://arxiv.org/abs/2304.04269v1
Date: Sun, 9 Apr 2023 16:21:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 16:43:33.476816
Title: HumanSD: A Native Skeleton-Guided Diffusion Model for Human Image Generation
Title（参考訳）: HumanSD:人間の画像生成のためのネイティブ骨格誘導拡散モデル
Authors: Xuan Ju, Ailing Zeng, Chenchen Zhao, Jianan Wang, Lei Zhang, Qiang Xu
Abstract要約: 我々はHumanSDと呼ばれる制御可能な人体画像生成のためのネイティブスケルトン誘導拡散モデルを提案する。デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて、元のSDモデルを微調整する。 HumanSDは、特に与えられたスケルトンガイダンスが洗練された場合、正確なポーズ制御と画質の点で、ControlNetより優れています。
参考スコア（独自算出の注目度）: 14.431687280402356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Controllable human image generation (HIG) has numerous real-life applications. State-of-the-art solutions, such as ControlNet and T2I-Adapter, introduce an additional learnable branch on top of the frozen pre-trained stable diffusion (SD) model, which can enforce various conditions, including skeleton guidance of HIG. While such a plug-and-play approach is appealing, the inevitable and uncertain conflicts between the original images produced from the frozen SD branch and the given condition incur significant challenges for the learnable branch, which essentially conducts image feature editing for condition enforcement. In this work, we propose a native skeleton-guided diffusion model for controllable HIG called HumanSD. Instead of performing image editing with dual-branch diffusion, we fine-tune the original SD model using a novel heatmap-guided denoising loss. This strategy effectively and efficiently strengthens the given skeleton condition during model training while mitigating the catastrophic forgetting effects. HumanSD is fine-tuned on the assembly of three large-scale human-centric datasets with text-image-pose information, two of which are established in this work. As shown in Figure 1, HumanSD outperforms ControlNet in terms of accurate pose control and image quality, particularly when the given skeleton guidance is sophisticated.
Abstract（参考訳）: 制御可能な人体画像生成(HIG)は多くの実物応用がある。 ControlNetやT2I-Adapterといった最先端のソリューションでは、凍結した事前訓練された安定拡散(SD)モデルの上に、新たな学習可能なブランチが導入されている。このようなプラグ・アンド・プレイのアプローチは魅力的だが、凍結したSDブランチから生成された元のイメージと、条件付きで画像の特徴を編集する学習可能なブランチには、必然的かつ不確実な競合が生じている。本研究では,制御可能な hig のためのネイティブスケルトン誘導拡散モデル humand を提案する。デュアルブランチ拡散による画像編集を行う代わりに、新しい熱マップ誘導型デノナイジング損失を用いて元のSDモデルを微調整する。この戦略は、破滅的な忘れる効果を緩和しながら、モデルトレーニング中に与えられた骨格条件を効果的かつ効率的に強化する。 HumanSDは3つの大規模な人間中心のデータセットとテキスト画像情報に基づいて微調整される。図1に示すように、humandは、与えられた骨格指導が洗練されている場合に、正確なポーズ制御と画質の観点からコントロールネットを上回る。

関連論文リスト

SDiFL: Stable Diffusion-Driven Framework for Image Forgery Localization [46.258797633731746]
既存のイメージフォージェリーローカライゼーション手法は、労働集約的で高価な注釈付きデータに依存している。私たちは、SDのイメージ生成と強力な知覚能力の両方を、画像法医学のフレームワークに統合した最初の人物です。我々のフレームワークは、広く使用されているベンチマークデータセットのパフォーマンスを最大12%向上させる。
論文参考訳（メタデータ） (2025-08-27T18:02:09Z)
Dual Recursive Feedback on Generation and Appearance Latents for Pose-Robust Text-to-Image Diffusion [15.384896404310645]
制御可能なT2Iモデルにおける制御条件を適切に反映する訓練不要なDual Recursive Feedback(DRF)システムを提案する。提案手法は高品質でセマンティック・コヒーレントで構造的に一貫した画像を生成する。
論文参考訳（メタデータ） (2025-08-13T07:46:00Z)
Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文参考訳（メタデータ） (2024-12-30T01:59:34Z)
A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文参考訳（メタデータ） (2024-12-01T00:29:57Z)
Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation [1.3654846342364308]
本研究では、事前訓練されたテキスト・画像拡散モデルにおいて、人間の形状とポーズを条件付きで制御する手法を提案する。これらの拡散モデルを微調整して新しい条件に適合させるには、大きなデータセットと高品質なアノテーションが必要である。合成条件情報を分離することで画像品質を維持するドメイン適応手法を提案する。
論文参考訳（メタデータ） (2024-11-07T14:02:41Z)
GUNet: A Graph Convolutional Network United Diffusion Model for Stable and Diversity Pose Generation [7.0646249774097525]
本稿では,GUNet をメインモデルとするフレームワーク PoseDiffusion を提案する。拡散モデルに基づく最初の生成フレームワークであり、安定拡散モデルに基づいて微調整された一連の変種も含む。 PoseDiffusionはテキスト駆動のポーズスケルトン生成の安定性と多様性の観点から,既存のSoTAアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2024-09-18T04:05:59Z)
CODE: Confident Ordinary Differential Editing [62.83365660727034]
CODE(Confident Ordinary Differential Editing)は、OoD(Out-of-Distribution)ガイダンスイメージを効果的に処理する画像合成のための新しいアプローチである。 CODEは、確率フロー正規微分方程式(ODE)軌道に沿ったスコアベースの更新によって画像を強化する。本手法は完全に盲目的に動作し,事前学習した生成モデルにのみ依存する。
論文参考訳（メタデータ） (2024-08-22T14:12:20Z)
DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery [71.6345505427213]
DPMeshは、人間のメッシュリカバリを排除した革新的なフレームワークである。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルに埋め込まれた対象構造と空間的関係について、より深い拡散に乗じる。
論文参考訳（メタデータ） (2024-04-01T18:59:13Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文参考訳（メタデータ） (2023-09-02T13:32:14Z)
ADIR: Adaptive Diffusion for Image Reconstruction [46.838084286784195]
本研究では,拡散モデルによる事前学習を利用した条件付きサンプリング手法を提案する。次に、事前学習した拡散分極ネットワークを入力に適応させる新しいアプローチと組み合わせる。画像再構成手法の適応拡散は,超高解像度,デブロアリング,テキストベースの編集タスクにおいて,大幅な改善が達成されていることを示す。
論文参考訳（メタデータ） (2022-12-06T18:39:58Z)
NeuralReshaper: Single-image Human-body Retouching with Deep Neural Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文参考訳（メタデータ） (2022-03-20T09:02:13Z)
Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文参考訳（メタデータ） (2020-08-16T13:38:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。