論文の概要: SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model
- arxiv url: http://arxiv.org/abs/2512.10957v1
- Date: Thu, 11 Dec 2025 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.583827
- Title: SceneMaker: Open-set 3D Scene Generation with Decoupled De-occlusion and Pose Estimation Model
- Title(参考訳): SceneMaker:デカップリングデクルージョンとポス推定モデルによるオープンセット3次元シーン生成
- Authors: Yukai Shi, Weiyu Li, Zihao Wang, Hongyang Li, Xingyu Chen, Ping Tan, Lei Zhang,
- Abstract要約: 本研究では,SceneMakerと呼ばれる分離された3次元シーン生成フレームワークを提案する。
まず,3次元オブジェクト生成からデオクルージョンモデルを分離し,画像データセットと収集したデオクルージョンデータセットを活用することでデオクルージョンモデルを強化する。
そこで本研究では,自己意図と相互意図の両方のグローバルなメカニズムと局所的なメカニズムを統合し,精度を向上させるための統合されたポーズ推定モデルを提案する。
- 参考スコア(独自算出の注目度): 83.37403036061403
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a decoupled 3D scene generation framework called SceneMaker in this work. Due to the lack of sufficient open-set de-occlusion and pose estimation priors, existing methods struggle to simultaneously produce high-quality geometry and accurate poses under severe occlusion and open-set settings. To address these issues, we first decouple the de-occlusion model from 3D object generation, and enhance it by leveraging image datasets and collected de-occlusion datasets for much more diverse open-set occlusion patterns. Then, we propose a unified pose estimation model that integrates global and local mechanisms for both self-attention and cross-attention to improve accuracy. Besides, we construct an open-set 3D scene dataset to further extend the generalization of the pose estimation model. Comprehensive experiments demonstrate the superiority of our decoupled framework on both indoor and open-set scenes. Our codes and datasets is released at https://idea-research.github.io/SceneMaker/.
- Abstract(参考訳): 本研究では,SceneMakerと呼ばれる分離された3次元シーン生成フレームワークを提案する。
十分なオープンセットのデオクルージョンとポーズの事前推定が欠如しているため、既存の手法では、厳密なオクルージョンとオープンセットの設定の下で、高品質な幾何学と正確なポーズを同時に生成するのに苦労している。
これらの問題に対処するため、まず3次元オブジェクト生成からデクルージョンモデルを分離し、さらに多様なオープンセットのオクルージョンパターンに対して画像データセットとデクルージョンデータセットを活用して、デクルージョンモデルを強化する。
そこで本研究では,自己意図と相互意図の両方のグローバルなメカニズムと局所的なメカニズムを統合し,精度を向上させるための統合されたポーズ推定モデルを提案する。
さらに,ポーズ推定モデルの一般化をさらに拡張するために,オープンセットの3Dシーンデータセットを構築した。
総合的な実験は、屋内およびオープンセットの両方の場面において、分離されたフレームワークの優位性を実証する。
私たちのコードとデータセットはhttps://idea-research.github.io/SceneMaker/で公開されています。
関連論文リスト
- One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation [32.45730375971019]
単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
実世界操作における本手法の有効性を検証し, 実物操作による頑健な器用握力の実証を行った。
論文 参考訳(メタデータ) (2025-09-09T17:59:02Z) - DeOcc-1-to-3: 3D De-Occlusion from a Single Image via Self-Supervised Multi-View Diffusion [50.90541069907167]
閉塞型マルチビュー生成のためのエンドツーエンドフレームワークであるDeOcc-1-to-3を提案する。
私たちの自己教師型トレーニングパイプラインは、隠蔽されたイメージペアと擬似地上構造ビューを活用して、モデル構造を意識した補完とビュー整合性を教える。
論文 参考訳(メタデータ) (2025-06-26T17:58:26Z) - CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design [35.11283253765395]
室内シーン合成のための新しい手法として,分解した立方体プリミティブをシーン内の3次元オブジェクトに配置する手法を提案する。
提案手法はCuboid Arrangement and Scene AssemblyのCasaGPTと呼ばれ, 自動回帰モデルを用いてキューブを逐次配置し, 物理的に可視なシーンを生成する。
論文 参考訳(メタデータ) (2025-04-28T04:35:04Z) - SpaRP: Fast 3D Object Reconstruction and Pose Estimation from Sparse Views [36.02533658048349]
本研究では,3次元テクスチャメッシュを再構成し,スパースビュー画像に対する相対カメラのポーズを推定する新しい手法であるSpaRPを提案する。
SpaRPは2次元拡散モデルから知識を抽出し、それらを微調整し、スパースビュー間の3次元空間関係を暗黙的に推論する。
テクスチャ化されたメッシュを生成するのに、わずか20秒しかかからず、カメラは入力ビューにポーズする。
論文 参考訳(メタデータ) (2024-08-19T17:53:10Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Occ$^2$Net: Robust Image Matching Based on 3D Occupancy Estimation for
Occluded Regions [14.217367037250296]
Occ$2$Netは、3D占有率を用いて閉塞関係をモデル化し、閉塞領域の一致点を推測する画像マッチング手法である。
本手法は実世界とシミュレーションデータセットの両方で評価し,いくつかの指標における最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-14T13:09:41Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z) - GAUDI: A Neural Architect for Immersive 3D Scene Generation [67.97817314857917]
GAUDIは、動くカメラから没入的にレンダリングできる複雑な3Dシーンの分布をキャプチャできる生成モデルである。
GAUDIは,複数のデータセットにまたがる非条件生成環境において,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-07-27T19:10:32Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。