論文の概要: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
- arxiv url: http://arxiv.org/abs/2506.07091v1
- Date: Sun, 08 Jun 2025 11:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.670565
- Title: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
- Title(参考訳): SceneLCM: 遅延一貫性モデルを用いたエンド・ツー・エンドレイアウト型対話型屋内シーン生成
- Authors: Yangkai Lin, Jiabao Lei, Kui Jia,
- Abstract要約: SceneLCMは、レイアウト設計のためにLarge Language Model(LLM)をシーン最適化のためにLatent Consistency Model(LCM)と同期するエンドツーエンドフレームワークである。
SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
- 参考スコア(独自算出の注目度): 45.648346391757336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our project page: https://scutyklin.github.io/SceneLCM/. Automated generation of complex, interactive indoor scenes tailored to user prompt remains a formidable challenge. While existing methods achieve indoor scene synthesis, they struggle with rigid editing constraints, physical incoherence, excessive human effort, single-room limitations, and suboptimal material quality. To address these limitations, we propose SceneLCM, an end-to-end framework that synergizes Large Language Model (LLM) for layout design with Latent Consistency Model(LCM) for scene optimization. Our approach decomposes scene generation into four modular pipelines: (1) Layout Generation. We employ LLM-guided 3D spatial reasoning to convert textual descriptions into parametric blueprints(3D layout). And an iterative programmatic validation mechanism iteratively refines layout parameters through LLM-mediated dialogue loops; (2) Furniture Generation. SceneLCM employs Consistency Trajectory Sampling(CTS), a consistency distillation sampling loss guided by LCM, to form fast, semantically rich, and high-quality representations. We also offer two theoretical justification to demonstrate that our CTS loss is equivalent to consistency loss and its distillation error is bounded by the truncation error of the Euler solver; (3) Environment Optimization. We use a multiresolution texture field to encode the appearance of the scene, and optimize via CTS loss. To maintain cross-geometric texture coherence, we introduce a normal-aware cross-attention decoder to predict RGB by cross-attending to the anchors locations in geometrically heterogeneous instance. (4)Physically Editing. SceneLCM supports physically editing by integrating physical simulation, achieved persistent physical realism. Extensive experiments validate SceneLCM's superiority over state-of-the-art techniques, showing its wide-ranging potential for diverse applications.
- Abstract(参考訳): 私たちのプロジェクトページは、https://scutyklin.github.io/SceneLCM/です。
ユーザープロンプトに合わせた、複雑なインタラクティブな屋内シーンの自動生成は、まだまだ難しい課題だ。
既存の手法は屋内シーンの合成を実現する一方で、厳密な編集の制約、物理的不整合、過度な人的努力、シングルルームの制限、最適以下の材料品質に悩まされている。
これらの制約に対処するため,Large Language Model (LLM) とLatent Consistency Model (LCM) を併用したレイアウト設計のためのエンドツーエンドフレームワークであるSceneLCMを提案する。
提案手法はシーン生成を4つのモジュールパイプラインに分解する。
テキスト記述をパラメトリック・ブループリント(3Dレイアウト)に変換するために,LLM誘導3次元空間推論を用いる。
また, 反復型プログラム検証機構は, LLMによる対話ループを通してレイアウトパラメータを反復的に洗練し, (2)家具生成を行う。
SceneLCMは、LCMによって導かれる一貫性のある蒸留サンプリング損失であるConsistency Trajectory Smpling(CTS)を用いて、高速でセマンティックにリッチで高品質な表現を形成する。
また, CTS損失が整合損失と等価であること, 蒸留誤差がオイラー解のトランケーション誤差で有界であること, 環境最適化の2つの理論的正当性を示す。
我々はマルチレゾリューションテクスチャフィールドを用いてシーンの外観を符号化し、CTSロスによる最適化を行う。
幾何的不均一な例において,幾何的テクスチャコヒーレンスを維持するために,アンカー位置へのクロスアテンディングによりRGBを予測する正規認識のクロスアテンションデコーダを導入する。
(4)Physically Editing
SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
広範な実験により、SceneLCMは最先端技術よりも優れており、多様な応用の可能性を示している。
関連論文リスト
- ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。