論文の概要: CC-FMO: Camera-Conditioned Zero-Shot Single Image to 3D Scene Generation with Foundation Model Orchestration
- arxiv url: http://arxiv.org/abs/2512.00493v1
- Date: Sat, 29 Nov 2025 14:01:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.265315
- Title: CC-FMO: Camera-Conditioned Zero-Shot Single Image to 3D Scene Generation with Foundation Model Orchestration
- Title(参考訳): CC-FMO:ファウンデーションモデルによる3次元シーン生成のためのカメラコンディションゼロショット画像
- Authors: Boshi Tang, Henry Zheng, Rui Huang, Gao Huang,
- Abstract要約: 単一の画像から高品質な3Dシーンを生成することは、AR/VRおよび組み込みAIアプリケーションにとって不可欠である。
本稿では,1画像から3Dシーン生成のためのゼロショットカメラコンディショニングパイプラインであるCC-FMOを紹介する。
- 参考スコア(独自算出の注目度): 29.052223430061826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: High-quality 3D scene generation from a single image is crucial for AR/VR and embodied AI applications. Early approaches struggle to generalize due to reliance on specialized models trained on curated small datasets. While recent advancements in large-scale 3D foundation models have significantly enhanced instance-level generation, coherent scene generation remains a challenge, where performance is limited by inaccurate per-object pose estimations and spatial inconsistency. To this end, this paper introduces CC-FMO, a zero-shot, camera-conditioned pipeline for single-image to 3D scene generation that jointly conforms to the object layout in input image and preserves instance fidelity. CC-FMO employs a hybrid instance generator that combines semantics-aware vector-set representation with detail-rich structured latent representation, yielding object geometries that are both semantically plausible and high-quality. Furthermore, CC-FMO enables the application of foundational pose estimation models in the scene generation task via a simple yet effective camera-conditioned scale-solving algorithm, to enforce scene-level coherence. Extensive experiments demonstrate that CC-FMO consistently generates high-fidelity camera-aligned compositional scenes, outperforming all state-of-the-art methods.
- Abstract(参考訳): 単一の画像から高品質な3Dシーンを生成することは、AR/VRおよび組み込みAIアプリケーションにとって不可欠である。
初期のアプローチは、キュレートされた小さなデータセットで訓練された特別なモデルに依存するため、一般化に苦慮している。
大規模3次元基礎モデルの最近の進歩は、インスタンスレベルの生成を著しく向上させているが、コヒーレントシーン生成は、オブジェクトごとの不正確なポーズ推定と空間的不整合によって、パフォーマンスが制限されるため、依然として課題である。
この目的のために,入力画像のオブジェクトレイアウトに整合し,インスタンスの忠実さを保ちながら,単一画像から3次元シーン生成のためのゼロショットカメラコンディショニングパイプラインであるCC-FMOを紹介した。
CC-FMOは、セマンティクスを意識したベクトルセット表現と詳細に富んだ構造化された潜在表現を組み合わせたハイブリッドインスタンスジェネレータを使用し、セマンティクス的に妥当かつ高品質なオブジェクトジオメトリを生成する。
さらに、CC-FMOは、シーンレベルのコヒーレンスを強制するために、単純で効果的なカメラ条件付きスケール解決アルゴリズムを用いて、シーン生成タスクにおける基本ポーズ推定モデルの適用を可能にする。
大規模な実験により、CC-FMOは高忠実度カメラアライメント構成シーンを一貫して生成し、最先端の手法よりも優れていることが示された。
関連論文リスト
- TRELLISWorld: Training-Free World Generation from Object Generators [13.962895984556582]
テキスト駆動の3Dシーン生成は、仮想プロトタイピングからAR/VR、シミュレーションまで、幅広いアプリケーションに対して約束されている。
既存のメソッドは、多くの場合、単一オブジェクトの生成、ドメイン固有のトレーニング、あるいは完全な360度ビュービリティのサポートの欠如に制約される。
汎用テキストから3Dオブジェクトへの拡散モデルをモジュラータイルジェネレータとして再利用することで,3次元シーン合成のトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T21:40:31Z) - ARTDECO: Towards Efficient and High-Fidelity On-the-Fly 3D Reconstruction with Structured Scene Representation [44.75113949778924]
ARTDECOは、フィードフォワードモデルの効率とSLAMベースのパイプラインの信頼性を組み合わせた統合フレームワークである。
ARTDECOはSLAMに匹敵するインタラクティブな性能、フィードフォワードシステムに類似した堅牢性、シーンごとの最適化に近い再現品質を提供する。
論文 参考訳(メタデータ) (2025-10-09T17:57:38Z) - DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - 3D Scene Understanding Through Local Random Access Sequence Modeling [12.689247678229382]
単一画像からの3Dシーン理解は、コンピュータビジョンにおいて重要な問題である。
本稿では、LRAS(Local Random Access Sequence)モデリングと呼ばれる自己回帰生成手法を提案する。
光学フローを3次元シーン編集の中間表現として利用することにより、LRASが最先端の新規ビュー合成と3次元オブジェクト操作機能を実現することを示す。
論文 参考訳(メタデータ) (2025-04-04T18:59:41Z) - LPA3D: 3D Room-Level Scene Generation from In-the-Wild Images [23.258004561060563]
LPA-GAN(LPA-GAN)は、LPAのカメラポーズの先行を推定するために、特定の修正を組み込んだ新しいNeRFベースの生成手法である。
本手法は,ビュー・ツー・ビューの整合性とセマンティック・ノーマル性に優れる。
論文 参考訳(メタデータ) (2025-04-03T07:18:48Z) - HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文 参考訳(メタデータ) (2025-03-27T09:45:09Z) - FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction [69.63414788486578]
FreeSplatterはスケーラブルなフィードフォワードフレームワークで、キャリブレーションされていないスパースビュー画像から高品質な3Dガウシアンを生成する。
当社のアプローチでは,自己注意ブロックが情報交換を容易にする合理化トランスフォーマーアーキテクチャを採用している。
包括的データセットに基づいて,オブジェクト中心とシーンレベルの再構築のための2つの特殊な変種を開発する。
論文 参考訳(メタデータ) (2024-12-12T18:52:53Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - Variable Radiance Field for Real-World Category-Specific Reconstruction from Single Image [25.44715538841181]
単一画像からNeural Radiance Field(NeRF)を使用してカテゴリ固有のオブジェクトを再構成することは、有望だが挑戦的な作業である。
本稿では,カテゴリ固有のオブジェクトを効率的に再構成できる新しいフレームワークである可変放射場(VRF)を提案する。
VRFは、再構築品質と計算効率の両方において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-06-08T12:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。