論文の概要: PersonaCraft: Personalized and Controllable Full-Body Multi-Human Scene Generation Using Occlusion-Aware 3D-Conditioned Diffusion
- arxiv url: http://arxiv.org/abs/2411.18068v2
- Date: Fri, 14 Mar 2025 02:05:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:30.703842
- Title: PersonaCraft: Personalized and Controllable Full-Body Multi-Human Scene Generation Using Occlusion-Aware 3D-Conditioned Diffusion
- Title(参考訳): PersonaCraft: Occlusion-Aware 3D-conditioned Diffusion を用いたパーソナライズ・コントロール可能なフルボディマルチヒューマンシーン生成
- Authors: Gwanghyun Kim, Suh Yoon Jeon, Seunggyu Lee, Se Young Chun,
- Abstract要約: PersonaCraftは、複雑なシーンで複数の個人をパーソナライズする、コントロール可能でオクルージョンを損なうフルボディ画像合成のためのフレームワークである。
SMPLxをベースとした形状パラメータとテクスチュアリファインメントを併用した双方向の体形表現により,高精度な全身のパーソナライズとフレキシブルなユーザ定義体形調整が可能となった。
- 参考スコア(独自算出の注目度): 11.86021588469762
- License:
- Abstract: We present PersonaCraft, a framework for controllable and occlusion-robust full-body personalized image synthesis of multiple individuals in complex scenes. Current methods struggle with occlusion-heavy scenarios and complete body personalization, as 2D pose conditioning lacks 3D geometry, often leading to ambiguous occlusions and anatomical distortions, and many approaches focus solely on facial identity. In contrast, our PersonaCraft integrates diffusion models with 3D human modeling, employing SMPLx-ControlNet, to utilize 3D geometry like depth and normal maps for robust 3D-aware pose conditioning and enhanced anatomical coherence. To handle fine-grained occlusions, we propose Occlusion Boundary Enhancer Network that exploits depth edge signals with occlusion-focused training, and Occlusion-Aware Classifier-Free Guidance strategy that selectively reinforces conditioning in occluded regions without affecting unoccluded areas. PersonaCraft can seamlessly be combined with Face Identity ControlNet, achieving full-body multi-human personalization and thus marking a significant advancement beyond prior approaches that concentrate only on facial identity. Our dual-pathway body shape representation with SMPLx-based shape parameters and textual refinement, enables precise full-body personalization and flexible user-defined body shape adjustments. Extensive quantitative experiments and user studies demonstrate that PersonaCraft significantly outperforms existing methods in generating high-quality, multi-person images with accurate personalization and robust occlusion handling.
- Abstract(参考訳): 本稿では,複雑な場面で複数の個人をパーソナライズするパーソナライズされたフルボディ画像合成のためのフレームワークであるPersonaCraftを提案する。
2次元ポーズ条件付けには3次元幾何学が欠如しており、しばしば曖昧な閉塞と解剖学的歪みを招き、多くのアプローチは顔認証にのみ焦点をあてている。
対照的に、PersonaCraftは拡散モデルとSMPLx-ControlNetを用いた3次元人体モデリングを統合し、3次元ポーズ条件の堅牢化と解剖学的コヒーレンスの向上に深度や正規マップのような3次元幾何学を利用する。
きめ細かいオクルージョンを扱うために,オクルージョンに着目した深度エッジ信号を利用するオクルージョン境界エンハンサーネットワークと,隠蔽領域に影響を及ぼすことなく,隠蔽領域の条件付けを選択的に強化するオクルージョン・アウェア・クラシファイア・フリーガイダンス戦略を提案する。
PersonaCraftは、Face Identity ControlNetとシームレスに結合することができ、フルボディのマルチヒューマンパーソナライゼーションを実現し、顔認証のみに集中する以前のアプローチ以上の大きな進歩を示す。
SMPLxをベースとした形状パラメータとテクスチュアリファインメントを併用した双方向の体形表現により,高精度な全身のパーソナライズとフレキシブルなユーザ定義体形調整が可能となった。
大規模な定量的実験とユーザスタディにより、PersonaCraftは、精度の高いパーソナライズと堅牢なオクルージョンハンドリングを備えた高品質なマルチパーソン画像の生成において、既存の手法を著しく上回っていることが示された。
関連論文リスト
- DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion Models [56.55549019625362]
画像ベースの3Dバーチャルトライオン(VTON)は、人や衣服の画像に基づいて3D人間を彫刻することを目的としている。
近年のテキスト・ツー・3D法は高忠実度3Dヒューマンジェネレーションにおいて顕著な改善を実現している。
我々は,3次元人間の形状とテクスチャを個別に最適化するために,textbfDreamVTONという新しい3次元人体試行モデルを提案する。
論文 参考訳(メタデータ) (2024-07-23T14:25:28Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis [1.6574413179773757]
GenLayNeRFは、複数の被写体の自由視点レンダリングのための一般化可能な階層化シーン表現である。
シーンを3Dボディーメッシュに固定されたマルチヒューマン層に分割する。
我々は、相関関係と融合関係にある点的画像整列と人間的アンチョレッド特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-20T20:37:31Z) - My3DGen: A Scalable Personalized 3D Generative Model [4.94227864283443]
My3DGenは、最大50のトレーニングイメージを使用して、個人の前でパーソナライズされた3Dを生成する。
My3DGenは、新しいビューの合成、与えられた顔のセマンティックな編集、新しい外観の合成を可能にする。
論文 参考訳(メタデータ) (2023-07-11T17:53:43Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。