論文の概要: PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis
- arxiv url: http://arxiv.org/abs/2602.19350v1
- Date: Sun, 22 Feb 2026 21:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.601909
- Title: PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis
- Title(参考訳): PoseCraft:フォトリアリスティックな人間の画像合成のための3Dランドマークとカメラコンディショニング
- Authors: Zhilin Guo, Jing Yang, Kyle Fogarty, Jingyi Wan, Boqiao Zhang, Tianhao Wu, Weihao Xia, Chenliang Zhou, Sakar Khattar, Fangcheng Zhong, Cristina Nader Vasconcelos, Cengiz Oztireli,
- Abstract要約: 既存のスキンベースのアバターは、手間のかかる手動リグやテンプレートベースのフィッティングを必要とする。
トークン化された3Dインターフェースを中心に構築された拡散フレームワークであるPoseCraftを紹介します。
実験の結果,PoseCraftは拡散中心法よりも高い知覚品質向上を実現していることがわかった。
- 参考スコア(独自算出の注目度): 11.578542607236857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digitizing humans and synthesizing photorealistic avatars with explicit 3D pose and camera controls are central to VR, telepresence, and entertainment. Existing skinning-based workflows require laborious manual rigging or template-based fittings, while neural volumetric methods rely on canonical templates and re-optimization for each unseen pose. We present PoseCraft, a diffusion framework built around tokenized 3D interface: instead of relying only on rasterized geometry as 2D control images, we encode sparse 3D landmarks and camera extrinsics as discrete conditioning tokens and inject them into diffusion via cross-attention. Our approach preserves 3D semantics by avoiding 2D re-projection ambiguity under large pose and viewpoint changes, and produces photorealistic imagery that faithfully captures identity and appearance. To train and evaluate at scale, we also implement GenHumanRF, a data generation workflow that renders diverse supervision from volumetric reconstructions. Our experiments show that PoseCraft achieves significant perceptual quality improvement over diffusion-centric methods, and attains better or comparable metrics to latest volumetric rendering SOTA while better preserving fabric and hair details.
- Abstract(参考訳): 人間のデジタル化と3Dポーズとカメラコントロールによる写真リアリスティックアバターの合成は、VR、テレプレゼンス、エンターテイメントの中心である。
既存のスキンベースのワークフローでは、面倒な手作業のリギングやテンプレートベースのフィッティングが必要であり、ニューラルボリュームの手法は、標準的なテンプレートと、目に見えない各ポーズに対する再最適化に依存している。
トークン化された3Dインターフェースを中心に構築された拡散フレームワークであるPoseCraftを紹介します。2Dコントロールイメージとしてラスタライズされた幾何学のみに頼るのではなく、スパース3Dランドマークとカメラ外装を個別のコンディショニングトークンとしてエンコードし、クロスアテンションを介して拡散に注入する。
提案手法は,大きなポーズや視点変化下での2次元再投影の曖昧さを回避し,アイデンティティと外観を忠実に捉えたフォトリアリスティックな画像を生成することによって,3次元のセマンティクスを保存する。
大規模にトレーニングし、評価するために、ボリューム再構成から多種多様な監視を行うデータ生成ワークフローであるGenHumanRFを実装した。
実験の結果,PoseCraftは拡散中心法よりも高い知覚品質向上を実現し,布地や毛髪の細部を保存しながら,最新のボリュームレンダリングSOTAに匹敵する指標を得た。
関連論文リスト
- UMAMI: Unifying Masked Autoregressive Models and Deterministic Rendering for View Synthesis [28.245380116188883]
新たなビュー合成(NVS)は、シーンの写実的で3D一貫性のある画像を、未確認のカメラのポーズからレンダリングすることを目的としている。
既存の決定論的ネットワークは、観測された領域を素早くレンダリングするが、観測されていない領域をぼかす。
両パラダイムの長所を統一するハイブリッドフレームワークを提案する。双方向トランスフォーマーは多視点画像トークンとプルッカー線埋め込みを符号化し、共有潜在表現を生成する。
論文 参考訳(メタデータ) (2025-12-23T07:08:00Z) - 3D$^2$-Actor: Learning Pose-Conditioned 3D-Aware Denoiser for Realistic Gaussian Avatar Modeling [37.11454674584874]
ポーズ条件付き3D対応ヒューマンモデリングパイプラインである3D$2$-Actorを導入する。
実験により、3D$2$-アクターは高忠実度アバターモデリングにおいて優れ、新しいポーズに頑健に一般化することを示した。
論文 参考訳(メタデータ) (2024-12-16T09:37:52Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - FaceLit: Neural 3D Relightable Faces [28.0806453092185]
FaceLitは、ユーザーが定義した様々な照明条件やビューでレンダリングできる3D顔を生成することができる。
FFHQデータセット上での3次元認識GANのFIDスコア3.5。
論文 参考訳(メタデータ) (2023-03-27T17:59:10Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - SMPLpix: Neural Avatars from 3D Human Models [56.85115800735619]
従来のレンダリングと画素空間で動作する最新の生成ネットワークのギャップを埋める。
我々は、スパースな3Dメッシュ頂点をフォトリアリスティックな画像に変換するネットワークを訓練する。
我々は,フォトリアリズムのレベルとレンダリング効率の両面で,従来の微分可能よりも優位性を示す。
論文 参考訳(メタデータ) (2020-08-16T10:22:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。