論文の概要: Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement
- arxiv url: http://arxiv.org/abs/2512.08535v1
- Date: Tue, 09 Dec 2025 12:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.950309
- Title: Photo3D: Advancing Photorealistic 3D Generation through Structure-Aligned Detail Enhancement
- Title(参考訳): Photo3D: 構造調整された細部拡張による光現実性3D生成の促進
- Authors: Xinyue Liang, Zhinyuan Ma, Lingchen Sun, Yanjun Guo, Lei Zhang,
- Abstract要約: Photo3Dは、GPT-4o画像モデル画像データによって駆動される3D生成を促進するためのフレームワークである。
本稿では,知覚的特徴適応とセマンティック構造マッチングを利用して外観整合性を強制する,現実的な詳細強化手法を提案する。
提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 12.855027334688382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although recent 3D-native generators have made great progress in synthesizing reliable geometry, they still fall short in achieving realistic appearances. A key obstacle lies in the lack of diverse and high-quality real-world 3D assets with rich texture details, since capturing such data is intrinsically difficult due to the diverse scales of scenes, non-rigid motions of objects, and the limited precision of 3D scanners. We introduce Photo3D, a framework for advancing photorealistic 3D generation, which is driven by the image data generated by the GPT-4o-Image model. Considering that the generated images can distort 3D structures due to their lack of multi-view consistency, we design a structure-aligned multi-view synthesis pipeline and construct a detail-enhanced multi-view dataset paired with 3D geometry. Building on it, we present a realistic detail enhancement scheme that leverages perceptual feature adaptation and semantic structure matching to enforce appearance consistency with realistic details while preserving the structural consistency with the 3D-native geometry. Our scheme is general to different 3D-native generators, and we present dedicated training strategies to facilitate the optimization of geometry-texture coupled and decoupled 3D-native generation paradigms. Experiments demonstrate that Photo3D generalizes well across diverse 3D-native generation paradigms and achieves state-of-the-art photorealistic 3D generation performance.
- Abstract(参考訳): 最近の3Dネイティブジェネレータは信頼性の高い幾何学の合成に大きな進歩を遂げているが、現実的な外観の実現には至っていない。
シーンの多様さ、物体の非剛体運動、そして3Dスキャナーの限られた精度のために、このようなデータをキャプチャすることは本質的に困難である。
GPT-4o画像モデルにより生成された画像データによって駆動されるフォトリアリスティック3D生成のフレームワークであるPhoto3Dを紹介する。
生成した画像が多視点整合性の欠如により3次元構造を歪められることを考慮し、構造整合型多視点合成パイプラインを設計し、3次元幾何と組み合わせた細部強化多視点データセットを構築する。
そこで本研究では,視覚的特徴適応と意味的構造マッチングを利用して,3D-ネイティブ幾何の構造的整合性を保ちながら,現実的な細部との外観整合性を実現する現実的な細部拡張手法を提案する。
提案手法は,異なる3Dネイティブジェネレータに対して汎用的であり,幾何学的テクスチャ結合とデカップリングされた3Dネイティブジェネレータの最適化を容易にするための専用トレーニング戦略を提案する。
実験により、Photo3Dは多様な3Dネイティブ生成パラダイムにまたがってうまく一般化し、最先端のフォトリアリスティックな3D生成性能を実現することが示された。
関連論文リスト
- Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - En3D: An Enhanced Generative Model for Sculpting 3D Humans from 2D
Synthetic Data [36.51674664590734]
本研究では,高品質な3次元アバターの小型化を図ったEn3Dを提案する。
従来の3Dデータセットの不足や、視角が不均衡な限られた2Dコレクションと異なり、本研究の目的は、ゼロショットで3D人間を作れる3Dの開発である。
論文 参考訳(メタデータ) (2024-01-02T12:06:31Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - Guide3D: Create 3D Avatars from Text and Image Guidance [55.71306021041785]
Guide3Dは拡散モデルに基づく3Dアバター生成のためのテキスト・画像誘導生成モデルである。
我々のフレームワークは、トポロジカルかつ構造的に正しい幾何と高分解能なテクスチャを生成する。
論文 参考訳(メタデータ) (2023-08-18T17:55:47Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。