論文の概要: TabletopGen: Instance-Level Interactive 3D Tabletop Scene Generation from Text or Single Image
- arxiv url: http://arxiv.org/abs/2512.01204v1
- Date: Mon, 01 Dec 2025 02:38:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.643929
- Title: TabletopGen: Instance-Level Interactive 3D Tabletop Scene Generation from Text or Single Image
- Title(参考訳): TabletopGen: テキストまたは単一画像からのインスタンスレベルインタラクティブな3Dテーブルトップシーン生成
- Authors: Ziqian Wang, Yonghao He, Licheng Yang, Wei Zou, Hongxuan Ma, Liu Liu, Wei Sui, Yuxin Guo, Hu Su,
- Abstract要約: TabletopGenは、多様なインスタンスレベルのインタラクティブな3Dテーブルトップシーンを生成する、トレーニング不要で完全に自動化されたフレームワークである。
そこで,TabletopGenは,視覚的忠実度,レイアウト精度,物理的妥当性において,既存の手法をはるかに上回り,最先端の性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 22.08471897328577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity, physically interactive 3D simulated tabletop scenes is essential for embodied AI--especially for robotic manipulation policy learning and data synthesis. However, current text- or image-driven 3D scene generation methods mainly focus on large-scale scenes, struggling to capture the high-density layouts and complex spatial relations that characterize tabletop scenes. To address these challenges, we propose TabletopGen, a training-free, fully automatic framework that generates diverse, instance-level interactive 3D tabletop scenes. TabletopGen accepts a reference image as input, which can be synthesized by a text-to-image model to enhance scene diversity. We then perform instance segmentation and completion on the reference to obtain per-instance images. Each instance is reconstructed into a 3D model followed by canonical coordinate alignment. The aligned 3D models then undergo pose and scale estimation before being assembled into a collision-free, simulation-ready tabletop scene. A key component of our framework is a novel pose and scale alignment approach that decouples the complex spatial reasoning into two stages: a Differentiable Rotation Optimizer for precise rotation recovery and a Top-view Spatial Alignment mechanism for robust translation and scale estimation, enabling accurate 3D reconstruction from 2D reference. Extensive experiments and user studies show that TabletopGen achieves state-of-the-art performance, markedly surpassing existing methods in visual fidelity, layout accuracy, and physical plausibility, capable of generating realistic tabletop scenes with rich stylistic and spatial diversity. Our code will be publicly available.
- Abstract(参考訳): 高忠実で物理的にインタラクティブな3Dシミュレーションテーブルトップシーンを生成することは、AIの具体化、特にロボット操作ポリシー学習とデータ合成に不可欠である。
しかし、現在のテキストや画像駆動の3Dシーン生成手法は主に大規模シーンに焦点を当てており、高密度レイアウトやテーブルトップシーンを特徴付ける複雑な空間的関係を捉えるのに苦労している。
これらの課題に対処するため、トレーニング不要で完全に自動化されたフレームワークであるTabletopGenを提案し、多様なインスタンスレベルのインタラクティブな3Dテーブルトップシーンを生成する。
TabletopGenは参照イメージを入力として受け入れ、シーンの多様性を高めるためにテキスト・ツー・イメージ・モデルで合成することができる。
次に、インスタンスのセグメント化と参照の完了を行い、インスタンスごとの画像を取得する。
各インスタンスは3Dモデルに再構成され、続いて標準座標アライメントされる。
そして、アライメントされた3Dモデルは、衝突のないシミュレーション可能なテーブルトップシーンに組み立てられる前に、ポーズとスケールの推定を行う。
このフレームワークの重要な構成要素は、複雑な空間的推論を2段階に分割する、新しいポーズとスケールアライメントアプローチである。
大規模な実験とユーザスタディにより、TabletopGenは最先端のパフォーマンスを達成し、視覚的忠実さ、レイアウト精度、物理的妥当性を著しく上回り、リッチなスタイリスティックで空間的な多様性を持つリアルなテーブルトップシーンを生成することができることを示した。
私たちのコードは公開されます。
関連論文リスト
- IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - Towards Geometric and Textural Consistency 3D Scene Generation via Single Image-guided Model Generation and Layout Optimization [14.673302810271219]
幾何学的表現と高品質なテクスチャ情報を用いた3次元シーン生成のための新しい3段階フレームワークを提案する。
提案手法は, 個々の3次元モデルの幾何学的精度とテクスチャ忠実度の観点から, 最先端の手法よりも優れているだけでなく, シーンレイアウト合成において大きな利点がある。
論文 参考訳(メタデータ) (2025-07-20T06:59:42Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture [47.44029968307207]
本研究では,物体の形状とテクスチャを同時に高忠実度に再現する新しい枠組みを提案する。
提案手法は,SSR(Single-view Neural implicit Shape and Radiance Field)表現を用いて,明示的な3次元形状制御とボリュームレンダリングの両方を活用する。
我々のフレームワークの特徴は、単一のビュー3D再構成モデルにレンダリング機能をシームレスに統合しながら、きめ細かいテクスチャメッシュを生成する能力である。
論文 参考訳(メタデータ) (2023-11-01T11:46:15Z) - CC3D: Layout-Conditioned Generation of Compositional 3D Scenes [49.281006972028194]
本稿では,複雑な3次元シーンを2次元セマンティックなシーンレイアウトで合成する条件生成モデルであるCC3Dを紹介する。
合成3D-FRONTと実世界のKITTI-360データセットに対する評価は、我々のモデルが視覚的および幾何学的品質を改善したシーンを生成することを示す。
論文 参考訳(メタデータ) (2023-03-21T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。