論文の概要: SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation
- arxiv url: http://arxiv.org/abs/2602.22785v1
- Date: Thu, 26 Feb 2026 09:19:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.617427
- Title: SceneTransporter: Optimal Transport-Guided Compositional Latent Diffusion for Single-Image Structured 3D Scene Generation
- Title(参考訳): SceneTransporter: 単一画像構造3次元シーン生成のための最適輸送誘導合成潜時拡散
- Authors: Ling Wang, Hao-Xiang Guo, Xinzhou Wang, Fuchun Sun, Kai Sun, Pengkun Liu, Hang Xiao, Zhong Wang, Guangyuan Fu, Eric Li, Yang Liu, Yikai Wang,
- Abstract要約: SceneTransporterは、1つの画像から構造化された3Dシーンを生成するためのエンドツーエンドフレームワークである。
テストによると、SceneTransporterは、オープンワールドのシーン生成において、既存のメソッドよりも優れています。
- 参考スコア(独自算出の注目度): 30.006450280178466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SceneTransporter, an end-to-end framework for structured 3D scene generation from a single image. While existing methods generate part-level 3D objects, they often fail to organize these parts into distinct instances in open-world scenes. Through a debiased clustering probe, we reveal a critical insight: this failure stems from the lack of structural constraints within the model's internal assignment mechanism. Based on this finding, we reframe the task of structured 3D scene generation as a global correlation assignment problem. To solve this, SceneTransporter formulates and solves an entropic Optimal Transport (OT) objective within the denoising loop of the compositional DiT model. This formulation imposes two powerful structural constraints. First, the resulting transport plan gates cross-attention to enforce an exclusive, one-to-one routing of image patches to part-level 3D latents, preventing entanglement. Second, the competitive nature of the transport encourages the grouping of similar patches, a process that is further regularized by an edge-based cost, to form coherent objects and prevent fragmentation. Extensive experiments show that SceneTransporter outperforms existing methods on open-world scene generation, significantly improving instance-level coherence and geometric fidelity. Code and models will be publicly available at https://2019epwl.github.io/SceneTransporter/.
- Abstract(参考訳): SceneTransporterは、1つの画像から構造化された3Dシーンを生成するためのエンドツーエンドフレームワークである。
既存のメソッドは、部分レベルの3Dオブジェクトを生成するが、オープンワールドのシーンでは、これらのパーツを別々のインスタンスにまとめるのに失敗することが多い。
この失敗は、モデルの内部割り当て機構に構造的制約が欠如していることに起因する。
そこで本研究では,グローバルな相関代入問題として,構造化3次元シーン生成のタスクを再構成した。
これを解決するために、SceneTransporterは、合成DiTモデルのデノイングループ内でエントロピー最適輸送(OT)の目的を定式化し、解決する。
この定式化は2つの強力な構造的制約を課す。
まず、結果として得られたトランスポートプランは、イメージパッチを部分レベルの3Dラテントに排他的かつ1対1のルーティングを強制するために、アテンションをゲートする。
第二に、トランスポートの競争的性質は、エッジベースのコストによってさらに規則化されたプロセスである類似パッチのグループ化を促進し、コヒーレントなオブジェクトを形成し、断片化を防止する。
大規模な実験により、SceneTransporterは、オープンワールドシーン生成における既存の手法よりも優れており、インスタンスレベルのコヒーレンスと幾何学的忠実度が著しく向上していることが示された。
コードとモデルはhttps://2019epwl.github.io/SceneTransporter/.comで公開される。
関連論文リスト
- Hierarchical Image-Guided 3D Point Cloud Segmentation in Industrial Scenes via Multi-View Bayesian Fusion [4.679314646805623]
3Dセグメンテーションは、高密度なレイアウトとマルチスケールオブジェクトを持つ複雑なシーンを理解するために重要である。
既存の3Dポイントベースの手法はコストのかかるアノテーションを必要とするが、画像誘導方式はビュー間のセマンティックな不整合に悩まされることが多い。
本稿では,階層的な画像誘導型3次元セグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-07T15:15:52Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - CasaGPT: Cuboid Arrangement and Scene Assembly for Interior Design [35.11283253765395]
室内シーン合成のための新しい手法として,分解した立方体プリミティブをシーン内の3次元オブジェクトに配置する手法を提案する。
提案手法はCuboid Arrangement and Scene AssemblyのCasaGPTと呼ばれ, 自動回帰モデルを用いてキューブを逐次配置し, 物理的に可視なシーンを生成する。
論文 参考訳(メタデータ) (2025-04-28T04:35:04Z) - HiScene: Creating Hierarchical 3D Scenes with Isometric View Generation [50.206100327643284]
HiSceneは、2D画像生成と3Dオブジェクト生成のギャップを埋める新しい階層的なフレームワークである。
構成構造を維持しながら2次元表現に整合した3次元コンテンツを生成する。
論文 参考訳(メタデータ) (2025-04-17T16:33:39Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - Shape of Motion: 4D Reconstruction from a Single Video [42.42669078777769]
本稿では,世界座標フレーム内の3次元運動軌跡を明示的かつ永続的に特徴付ける,ジェネリックダイナミックシーンの再構築手法を提案する。
まず,コンパクトなSE(3)モーションベースでシーンの動きを表現することで,3次元動作の低次元構造を利用する。
第2に,単眼深度マップや長距離2Dトラックなどの既成データ駆動の先行データを利用して,これらのノイズを効果的に処理する方法を考案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。