論文の概要: I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
- arxiv url: http://arxiv.org/abs/2512.13683v1
- Date: Mon, 15 Dec 2025 18:59:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.830338
- Title: I-Scene: 3D Instance Models are Implicit Generalizable Spatial Learners
- Title(参考訳): I-Scene:3次元インスタンスモデルは空間学習に欠かせない
- Authors: Lu Ling, Yunhao Ge, Yichen Sheng, Aniket Bera,
- Abstract要約: インタラクティブな3Dシーン生成において、一般化は依然として中心的な課題である。
我々は、シーンレベルの学習者として機能するために、事前訓練された3Dインスタンスジェネレータを書き換える。
トレーニングシーンがランダムに構成されたオブジェクトであっても,空間的推論がまだ現れることを示す。
- 参考スコア(独自算出の注目度): 21.18471823625016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization remains the central challenge for interactive 3D scene generation. Existing learning-based approaches ground spatial understanding in limited scene dataset, restricting generalization to new layouts. We instead reprogram a pre-trained 3D instance generator to act as a scene level learner, replacing dataset-bounded supervision with model-centric spatial supervision. This reprogramming unlocks the generator transferable spatial knowledge, enabling generalization to unseen layouts and novel object compositions. Remarkably, spatial reasoning still emerges even when the training scenes are randomly composed objects. This demonstrates that the generator's transferable scene prior provides a rich learning signal for inferring proximity, support, and symmetry from purely geometric cues. Replacing widely used canonical space, we instantiate this insight with a view-centric formulation of the scene space, yielding a fully feed-forward, generalizable scene generator that learns spatial relations directly from the instance model. Quantitative and qualitative results show that a 3D instance generator is an implicit spatial learner and reasoner, pointing toward foundation models for interactive 3D scene understanding and generation. Project page: https://luling06.github.io/I-Scene-project/
- Abstract(参考訳): インタラクティブな3Dシーン生成において、一般化は依然として中心的な課題である。
既存の学習に基づくアプローチは、シーンデータセットに制限された空間的理解を基盤として、新しいレイアウトへの一般化を制限している。
代わりに、トレーニング済みの3Dインスタンスジェネレータをプログラムしてシーンレベルの学習者として動作させ、データセット境界の監視をモデル中心の空間監視に置き換える。
この再プログラミングにより、ジェネレータの移動可能な空間知識が解放され、レイアウトや新しいオブジェクト構成が一般化される。
注目すべきは、トレーニングシーンがランダムに構成されたオブジェクトであっても、空間的推論が依然として現れることだ。
このことは、発電機の転送可能なシーンが、純粋に幾何学的な手がかりから近接性、支持性、対称性を推測するための豊富な学習信号を提供することを示している。
この知見をシーン空間のビュー中心の定式化によりインスタンス化し、インスタンスモデルから直接空間関係を学習する完全フィードフォワードの一般化可能なシーンジェネレータを生成する。
定量的および定性的な結果から、3Dインスタンス生成者は暗黙の空間学習者であり、対話型3Dシーン理解と生成の基礎モデルを指し示す。
プロジェクトページ: https://luling06.github.io/I-Scene-project/
関連論文リスト
- Beyond Pixel Histories: World Models with Persistent 3D State [50.4601060508243]
PERSISTは、潜伏した3Dシーンの進化をシミュレートする世界モデルの新たなパラダイムである。
既存の手法に比べて空間記憶,3次元整合性,長期安定性が大幅に向上した。
論文 参考訳(メタデータ) (2026-03-03T19:58:31Z) - TRELLISWorld: Training-Free World Generation from Object Generators [13.962895984556582]
テキスト駆動の3Dシーン生成は、仮想プロトタイピングからAR/VR、シミュレーションまで、幅広いアプリケーションに対して約束されている。
既存のメソッドは、多くの場合、単一オブジェクトの生成、ドメイン固有のトレーニング、あるいは完全な360度ビュービリティのサポートの欠如に制約される。
汎用テキストから3Dオブジェクトへの拡散モデルをモジュラータイルジェネレータとして再利用することで,3次元シーン合成のトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2025-10-27T21:40:31Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models [0.0]
ZING-3Dは、ゼロショット方式で3Dシーンのリッチな意味表現を生成するフレームワークである。
また、3D空間におけるインクリメンタルな更新と幾何学的接地を可能にし、下流のロボティクスアプリケーションに適している。
Replica と HM3D データセットを用いた実験により,ZING-3D はタスク固有の訓練を必要とせず,空間的および関係的な知識を捉えるのに有効であることが示された。
論文 参考訳(メタデータ) (2025-10-24T00:52:33Z) - GenSpace: Benchmarking Spatially-Aware Image Generation [76.98817635685278]
人間は直感的に、写真のために3D空間でシーンを作成し、配置する。
高度なAI画像生成者は、テキストや画像プロンプトから画像を作成する際に、同様の3D空間認識を備えたシーンを計画できるだろうか?
我々は、現在の画像生成モデルの空間的認識を評価するための新しいベンチマークと評価パイプラインであるGenSpaceを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:59:26Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Planner3D: LLM-enhanced graph prior meets 3D indoor scene explicit regularization [31.52569918586902]
3Dシーンの合成は、ロボティクス、映画、ビデオゲームといった様々な産業に多様な応用がある。
本稿では,シーングラフからリアルで合理的な屋内シーンを生成することを目的とする。
本手法は,特にシーンレベルの忠実度の観点から,より優れた3次元シーン合成を実現する。
論文 参考訳(メタデータ) (2024-03-19T15:54:48Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。