論文の概要: PersonaCraft: Personalized Full-Body Image Synthesis for Multiple Identities from Single References Using 3D-Model-Conditioned Diffusion
- arxiv url: http://arxiv.org/abs/2411.18068v1
- Date: Wed, 27 Nov 2024 05:41:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 15:52:53.54517
- Title: PersonaCraft: Personalized Full-Body Image Synthesis for Multiple Identities from Single References Using 3D-Model-Conditioned Diffusion
- Title(参考訳): パーソナクラフト:3次元モデル共振拡散を用いた単一参照からの複数識別子のためのパーソナライズされたフルボディー画像合成
- Authors: Gwanghyun Kim, Suh Yoon Jeon, Seunggyu Lee, Se Young Chun,
- Abstract要約: PersonaCraftは、拡散モデルと3Dヒューマンモデリングを組み合わせた新しいアプローチである。
本手法は,SMPLx-ControlNetに3次元ポーズ条件を組み込んだオクルージョンを効果的に管理する。
テストは、複数の個人の高品質で現実的なイメージを生成する上で、ペルソナクラフトの優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 11.86021588469762
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Personalized image generation has been significantly advanced, enabling the creation of highly realistic and customized images. However, existing methods often struggle with generating images of multiple people due to occlusions and fail to accurately personalize full-body shapes. In this paper, we propose PersonaCraft, a novel approach that combines diffusion models with 3D human modeling to address these limitations. Our method effectively manages occlusions by incorporating 3D-aware pose conditioning with SMPLx-ControlNet and accurately personalizes human full-body shapes through SMPLx fitting. Additionally, PersonaCraft enables user-defined body shape adjustments, adding flexibility for individual body customization. Experimental results demonstrate the superior performance of PersonaCraft in generating high-quality, realistic images of multiple individuals while resolving occlusion issues, thus establishing a new standard for multi-person personalized image synthesis. Project page: https://gwang-kim.github.io/persona_craft
- Abstract(参考訳): パーソナライズされた画像生成は大幅に進歩し、リアルでカスタマイズされた画像の作成を可能にした。
しかし、既存の手法では、隠蔽によって複数の人物の画像を生成するのに苦労し、全身の形状を正確に特定することができないことが多い。
本稿では,拡散モデルと3次元人間モデルを組み合わせた新しいアプローチであるペルソナクラフトを提案する。
本手法は,SMPLx-ControlNetに3次元ポーズ条件を組み込んだオクルージョンを効果的に管理し,SMPLxフィッティングにより人体形状を正確にパーソナライズする。
さらに、PersonaCraftはユーザー定義のボディ形状調整を可能にし、個々のボディのカスタマイズに柔軟性を追加する。
実験結果から,複数の人物の高品質でリアルな画像を生成する上で,対人パーソナライズされた画像合成の新たな標準を確立する上で,ペルソナクラフトの優れた性能が示された。
プロジェクトページ:https://gwang-kim.github.io/persona_craft
関連論文リスト
- DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - DreamVTON: Customizing 3D Virtual Try-on with Personalized Diffusion Models [56.55549019625362]
画像ベースの3Dバーチャルトライオン(VTON)は、人や衣服の画像に基づいて3D人間を彫刻することを目的としている。
近年のテキスト・ツー・3D法は高忠実度3Dヒューマンジェネレーションにおいて顕著な改善を実現している。
我々は,3次元人間の形状とテクスチャを個別に最適化するために,textbfDreamVTONという新しい3次元人体試行モデルを提案する。
論文 参考訳(メタデータ) (2024-07-23T14:25:28Z) - ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling [96.87575334960258]
ID-to-3D(ID-to-3D)は、不整合表現を用いたIDとテキスト誘導型3次元頭部を生成する方法である。
前例のないアイデンティティ一貫性と高品質なテクスチャと幾何生成を実現する。
論文 参考訳(メタデータ) (2024-05-26T13:36:45Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。
単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文 参考訳(メタデータ) (2023-11-15T18:59:56Z) - GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis [1.6574413179773757]
GenLayNeRFは、複数の被写体の自由視点レンダリングのための一般化可能な階層化シーン表現である。
シーンを3Dボディーメッシュに固定されたマルチヒューマン層に分割する。
我々は、相関関係と融合関係にある点的画像整列と人間的アンチョレッド特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-20T20:37:31Z) - My3DGen: A Scalable Personalized 3D Generative Model [4.94227864283443]
My3DGenは、最大50のトレーニングイメージを使用して、個人の前でパーソナライズされた3Dを生成する。
My3DGenは、新しいビューの合成、与えられた顔のセマンティックな編集、新しい外観の合成を可能にする。
論文 参考訳(メタデータ) (2023-07-11T17:53:43Z) - DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via
Diffusion Models [55.71306021041785]
高品質な3Dアバターを作成するためのテキスト・アンド・シェイプ・ガイドフレームワークであるDreamAvatarについて紹介する。
SMPLモデルを利用して、生成のための形状とポーズのガイダンスを提供する。
また、全体とズームインした3Dヘッドから計算した損失を共同で最適化し、一般的なマルチフェイス「Janus」問題を緩和する。
論文 参考訳(メタデータ) (2023-04-03T12:11:51Z) - Deformable Model-Driven Neural Rendering for High-Fidelity 3D
Reconstruction of Human Heads Under Low-View Settings [20.07788905506271]
低視点で3Dの頭部を再構築することは技術的な課題を呈する。
幾何学的分解を提案し、2段階の粗大なトレーニング戦略を採用する。
提案手法は,低視野環境下での再現精度と新規ビュー合成の観点から,既存のニューラルレンダリング手法より優れる。
論文 参考訳(メタデータ) (2023-03-24T08:32:00Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Scene-Aware 3D Multi-Human Motion Capture from a Single Camera [83.06768487435818]
静止カメラで記録された1枚のRGBビデオから、シーン内の複数の人間の3次元位置を推定し、その身体形状と調音を推定する問題を考察する。
コンピュータビジョンの最近の進歩を,2次元の人体関節,関節角度,正規化不均等マップ,人間のセグメンテーションマスクなど,様々なモダリティのための大規模事前訓練モデルを用いて活用している。
特に,2次元の関節と関節角度を用いた正規化不均等予測から,シーン深度とユニークな人格尺度を推定する。
論文 参考訳(メタデータ) (2023-01-12T18:01:28Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Explicit Occlusion Reasoning for Multi-person 3D Human Pose Estimation [33.86986028882488]
咬合は, 咬合者の形状, 外観, 位置の変動が大きいため, 単眼多面体3次元ポーズ推定において大きな脅威となる。
既存のメソッドは、ポーズ先/制約、データ拡張、暗黙の推論でオクルージョンを処理しようとする。
本研究では、ボトムアップ型多人数ポーズ推定を大幅に改善する、このプロセスを明示的にモデル化する手法を開発した。
論文 参考訳(メタデータ) (2022-07-29T22:12:50Z) - LASOR: Learning Accurate 3D Human Pose and Shape Via Synthetic
Occlusion-Aware Data and Neural Mesh Rendering [3.007707487678111]
シルエットと2Dキーポイントデータを合成し,SMPLのポーズと形状パラメータに直接回帰するフレームワークを提案する。
ニューラル3Dメッシュを利用して、シルエットの監督をオンザフライで行えるようにすることで、形状推定の大幅な改善に寄与する。
我々は3DPWデータセットのポーズ精度では最先端であり、形状精度ではランク1法より明らかに優れている。
論文 参考訳(メタデータ) (2021-08-01T02:09:16Z) - Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo
Collection [65.92058628082322]
非パラメトリックフェースモデリングは形状仮定なしで画像からのみ3次元フェースを再構成することを目的としている。
本稿では,教師なしのロバストな3次元顔モデリングのための学習・アグリゲート・パーソナライズ・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T03:10:17Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。