論文の概要: Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation
- arxiv url: http://arxiv.org/abs/2411.04724v1
- Date: Thu, 07 Nov 2024 14:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:38:31.843122
- Title: Controlling Human Shape and Pose in Text-to-Image Diffusion Models via Domain Adaptation
- Title(参考訳): ドメイン適応によるテキスト・画像拡散モデルにおける人体形状・姿勢の制御
- Authors: Benito Buchheim, Max Reimann, Jürgen Döllner,
- Abstract要約: 本研究では、事前訓練されたテキスト・画像拡散モデルにおいて、人間の形状とポーズを条件付きで制御する手法を提案する。
これらの拡散モデルを微調整して新しい条件に適合させるには、大きなデータセットと高品質なアノテーションが必要である。
合成条件情報を分離することで画像品質を維持するドメイン適応手法を提案する。
- 参考スコア(独自算出の注目度): 1.3654846342364308
- License:
- Abstract: We present a methodology for conditional control of human shape and pose in pretrained text-to-image diffusion models using a 3D human parametric model (SMPL). Fine-tuning these diffusion models to adhere to new conditions requires large datasets and high-quality annotations, which can be more cost-effectively acquired through synthetic data generation rather than real-world data. However, the domain gap and low scene diversity of synthetic data can compromise the pretrained model's visual fidelity. We propose a domain-adaptation technique that maintains image quality by isolating synthetically trained conditional information in the classifier-free guidance vector and composing it with another control network to adapt the generated images to the input domain. To achieve SMPL control, we fine-tune a ControlNet-based architecture on the synthetic SURREAL dataset of rendered humans and apply our domain adaptation at generation time. Experiments demonstrate that our model achieves greater shape and pose diversity than the 2d pose-based ControlNet, while maintaining the visual fidelity and improving stability, proving its usefulness for downstream tasks such as human animation.
- Abstract(参考訳): 本研究では,3次元人体パラメトリックモデル(SMPL)を用いて,事前訓練されたテキスト・画像拡散モデルにおける人間の形状と姿勢の条件制御手法を提案する。
新しい条件に従うためにこれらの拡散モデルを微調整するには、大規模なデータセットと高品質なアノテーションが必要である。
しかし、合成データの領域ギャップと低シーンの多様性は、事前訓練されたモデルの視覚的忠実度を損なう可能性がある。
分類器のない誘導ベクトルにおいて、合成訓練された条件情報を分離し、それを他の制御ネットワークと合成して、生成した画像を入力領域に適応させることにより、画像品質を維持するドメイン適応手法を提案する。
SMPL制御を実現するために, 人工人間SURREALデータセット上に制御ネットに基づくアーキテクチャを微調整し, 生成時にドメイン適応を適用する。
実験により,本モデルは2次元ポーズベースコントロールネットよりも形状と多様性を向上し,視覚的忠実度を維持し,安定性を向上し,人間のアニメーションなどの下流作業に有用であることが示された。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - High-resolution semantically-consistent image-to-image translation [0.0]
本稿では,スタイル変換フェーズにおける画像のセマンティック一貫性と画素単位の品質を保った教師なし領域適応モデルを提案する。
提案モデルでは,SemI2Iモデルと比較してかなりの性能向上を示し,最先端のCyCADAモデルと同様の結果を得た。
論文 参考訳(メタデータ) (2022-09-13T19:08:30Z) - Training and Tuning Generative Neural Radiance Fields for Attribute-Conditional 3D-Aware Face Generation [66.21121745446345]
本稿では,特定の属性ラベルを入力として統合した条件付きGNeRFモデルを提案する。
提案手法は, 事前学習した3次元顔モデルに基づいており, 条件付き正規化フローモジュールをトレーニングするためのTraining as Init and fidelity for Tuning (TRIOT) 方式を提案する。
本実験は,ビューの整合性を高めた高品質な編集を行う能力を示すとともに,本モデルの有効性を実証するものである。
論文 参考訳(メタデータ) (2022-08-26T10:05:39Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learned Vertex Descent: A New Direction for 3D Human Model Fitting [64.04726230507258]
画像やスキャンに適合する3次元人体モデルのための新しい最適化手法を提案する。
われわれのアプローチは、非常に異なる体型を持つ服を着た人々の基盤となる身体を捉えることができ、最先端技術と比べて大きな改善を達成できる。
LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAに大きな改善が示される。
論文 参考訳(メタデータ) (2022-05-12T17:55:51Z) - NeuralReshaper: Single-image Human-body Retouching with Deep Neural
Networks [50.40798258968408]
本稿では,深部生成ネットワークを用いた単一画像における人体の意味的再構成手法であるNeuralReshaperを提案する。
われわれのアプローチは、まずパラメトリックな3次元人間モデルと元の人間の画像とを適合させるフィッティング・セイン・リフォーム・パイプラインに従う。
ペアデータが存在しないデータ不足に対処するために,ネットワークをトレーニングするための新たな自己教師型戦略を導入する。
論文 参考訳(メタデータ) (2022-03-20T09:02:13Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。