論文の概要: CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image
- arxiv url: http://arxiv.org/abs/2510.20776v1
- Date: Thu, 23 Oct 2025 17:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.521488
- Title: CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image
- Title(参考訳): CUPID:1枚の画像からPose-Grounded Generative 3Dを再現する
- Authors: Binbin Huang, Haobin Duan, Yiqun Zhao, Zibo Zhao, Yi Ma, Shenghua Gao,
- Abstract要約: カメラのポーズ,3次元形状,テクスチャを1枚の2次元画像から推定する。
実験では、3dB以上のPSNRゲインと10%以上のチャンファー距離減少を伴い、3D再構成法を先導するキューピッドのパフォーマンスが実証された。
- 参考スコア(独自算出の注目度): 32.39661961097445
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work proposes a new generation-based 3D reconstruction method, named Cupid, that accurately infers the camera pose, 3D shape, and texture of an object from a single 2D image. Cupid casts 3D reconstruction as a conditional sampling process from a learned distribution of 3D objects, and it jointly generates voxels and pixel-voxel correspondences, enabling robust pose and shape estimation under a unified generative framework. By representing both input camera poses and 3D shape as a distribution in a shared 3D latent space, Cupid adopts a two-stage flow matching pipeline: (1) a coarse stage that produces initial 3D geometry with associated 2D projections for pose recovery; and (2) a refinement stage that integrates pose-aligned image features to enhance structural fidelity and appearance details. Extensive experiments demonstrate Cupid outperforms leading 3D reconstruction methods with an over 3 dB PSNR gain and an over 10% Chamfer Distance reduction, while matching monocular estimators on pose accuracy and delivering superior visual fidelity over baseline 3D generative models. For an immersive view of the 3D results generated by Cupid, please visit cupid3d.github.io.
- Abstract(参考訳): 本研究では,1枚の2次元画像からカメラのポーズ,3次元形状,テクスチャを正確に推定する,新しい世代の3次元再構成手法であるCuupidを提案する。
キューピッドは、学習した3Dオブジェクトの分布から条件付きサンプリングプロセスとして3D再構成を行い、ボクセルと画素-ボクセル対応を共同で生成し、統一された生成フレームワーク下で頑健なポーズと形状推定を可能にする。
入力カメラのポーズと3次元形状を共用した3次元潜伏空間の分布として表現することにより,(1)ポーズ回復のための2次元プロジェクションを関連付けた初期3次元形状を生成する粗いステージ,(2)ポーズ整列画像特徴を統合して構造的忠実度と外観の詳細を向上する改良段階,という2段階のフローマッチングパイプラインを採用する。
広汎な実験により、クコイドは3dBPSNRゲインと10%以上のチャンファー距離を減少させるとともに、ポーズの精度で単分子推定器をマッチングし、ベースライン3D生成モデルよりも優れた視覚的忠実度を提供する。
Cupidが生成した3D結果の没入的なビューについては、 cupid3d.github.ioをご覧ください。
関連論文リスト
- Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Neural Voting Field for Camera-Space 3D Hand Pose Estimation [106.34750803910714]
3次元暗黙表現に基づく1枚のRGB画像からカメラ空間の3Dハンドポーズ推定のための統一的なフレームワークを提案する。
本稿では,カメラフラストラムにおける高密度3次元ポイントワイド投票により,カメラ空間の3次元ハンドポーズを推定する,新しい3次元高密度回帰手法を提案する。
論文 参考訳(メタデータ) (2023-05-07T16:51:34Z) - To The Point: Correspondence-driven monocular 3D category reconstruction [39.811816510186475]
To The Point (TTP) は、弱い監督から学んだ2Dから3D対応を用いて、単一の画像から3Dオブジェクトを再構成する手法である。
我々は、CNNによるカメラポーズと非剛性変形の回帰を置き換え、より正確な3D再構成を得る。
論文 参考訳(メタデータ) (2021-06-10T11:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。