論文の概要: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
- arxiv url: http://arxiv.org/abs/2506.07091v1
- Date: Sun, 08 Jun 2025 11:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.670565
- Title: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
- Title(参考訳): SceneLCM: 遅延一貫性モデルを用いたエンド・ツー・エンドレイアウト型対話型屋内シーン生成
- Authors: Yangkai Lin, Jiabao Lei, Kui Jia,
- Abstract要約: SceneLCMは、レイアウト設計のためにLarge Language Model(LLM)をシーン最適化のためにLatent Consistency Model(LCM)と同期するエンドツーエンドフレームワークである。
SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
- 参考スコア(独自算出の注目度): 45.648346391757336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our project page: https://scutyklin.github.io/SceneLCM/. Automated generation of complex, interactive indoor scenes tailored to user prompt remains a formidable challenge. While existing methods achieve indoor scene synthesis, they struggle with rigid editing constraints, physical incoherence, excessive human effort, single-room limitations, and suboptimal material quality. To address these limitations, we propose SceneLCM, an end-to-end framework that synergizes Large Language Model (LLM) for layout design with Latent Consistency Model(LCM) for scene optimization. Our approach decomposes scene generation into four modular pipelines: (1) Layout Generation. We employ LLM-guided 3D spatial reasoning to convert textual descriptions into parametric blueprints(3D layout). And an iterative programmatic validation mechanism iteratively refines layout parameters through LLM-mediated dialogue loops; (2) Furniture Generation. SceneLCM employs Consistency Trajectory Sampling(CTS), a consistency distillation sampling loss guided by LCM, to form fast, semantically rich, and high-quality representations. We also offer two theoretical justification to demonstrate that our CTS loss is equivalent to consistency loss and its distillation error is bounded by the truncation error of the Euler solver; (3) Environment Optimization. We use a multiresolution texture field to encode the appearance of the scene, and optimize via CTS loss. To maintain cross-geometric texture coherence, we introduce a normal-aware cross-attention decoder to predict RGB by cross-attending to the anchors locations in geometrically heterogeneous instance. (4)Physically Editing. SceneLCM supports physically editing by integrating physical simulation, achieved persistent physical realism. Extensive experiments validate SceneLCM's superiority over state-of-the-art techniques, showing its wide-ranging potential for diverse applications.
- Abstract(参考訳): 私たちのプロジェクトページは、https://scutyklin.github.io/SceneLCM/です。
ユーザープロンプトに合わせた、複雑なインタラクティブな屋内シーンの自動生成は、まだまだ難しい課題だ。
既存の手法は屋内シーンの合成を実現する一方で、厳密な編集の制約、物理的不整合、過度な人的努力、シングルルームの制限、最適以下の材料品質に悩まされている。
これらの制約に対処するため,Large Language Model (LLM) とLatent Consistency Model (LCM) を併用したレイアウト設計のためのエンドツーエンドフレームワークであるSceneLCMを提案する。
提案手法はシーン生成を4つのモジュールパイプラインに分解する。
テキスト記述をパラメトリック・ブループリント(3Dレイアウト)に変換するために,LLM誘導3次元空間推論を用いる。
また, 反復型プログラム検証機構は, LLMによる対話ループを通してレイアウトパラメータを反復的に洗練し, (2)家具生成を行う。
SceneLCMは、LCMによって導かれる一貫性のある蒸留サンプリング損失であるConsistency Trajectory Smpling(CTS)を用いて、高速でセマンティックにリッチで高品質な表現を形成する。
また, CTS損失が整合損失と等価であること, 蒸留誤差がオイラー解のトランケーション誤差で有界であること, 環境最適化の2つの理論的正当性を示す。
我々はマルチレゾリューションテクスチャフィールドを用いてシーンの外観を符号化し、CTSロスによる最適化を行う。
幾何的不均一な例において,幾何的テクスチャコヒーレンスを維持するために,アンカー位置へのクロスアテンディングによりRGBを予測する正規認識のクロスアテンションデコーダを導入する。
(4)Physically Editing
SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
広範な実験により、SceneLCMは最先端技術よりも優れており、多様な応用の可能性を示している。
関連論文リスト
- UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - LLM-Driven 3D Scene Generation of Agricultural Simulation Environments [1.002902747701998]
3Dシーン生成のための大規模言語モデル(LLM)は、将来性を示すが、しばしばドメイン固有の推論、検証機構、モジュール設計を欠いている。
本稿では,LLMを用いて自然言語のプロンプトから農業用合成シミュレーション環境を生成する。
モジュール型マルチLLMパイプラインを開発し、3Dアセット検索、ドメイン知識注入、Unrealレンダリングエンジンのためのコード生成を統合した。
論文 参考訳(メタデータ) (2026-02-12T08:33:01Z) - StdGEN++: A Comprehensive System for Semantic-Decomposed 3D Character Generation [57.06461272772509]
StdGEN++は、多種多様な入力から高忠実で意味的に分解された3D文字を生成するための、新しく包括的なシステムである。
最先端の性能を達成し、幾何学的精度と意味的絡み合いにおいて既存の手法を著しく上回っている。
結果として、非破壊的な編集、物理学に準拠したアニメーション、視線追跡など、より進んだ下流の機能をアンロックする。
論文 参考訳(メタデータ) (2026-01-12T15:41:27Z) - Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。
3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。
Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文 参考訳(メタデータ) (2025-12-14T20:02:43Z) - LARM: A Large Articulated-Object Reconstruction Model [29.66486888001511]
LARMは、スパースビュー画像から3Dの明瞭なオブジェクトを再構成する統合フィードフォワードフレームワークである。
LARMは、ディープマップやパートマスクなどの補助出力を生成し、明示的な3Dメッシュ抽出と関節推定を容易にする。
我々のパイプラインは、密集した監視の必要性を排除し、多様な対象カテゴリにわたる高忠実度再構築をサポートする。
論文 参考訳(メタデータ) (2025-11-14T18:55:27Z) - DisCo-Layout: Disentangling and Coordinating Semantic and Physical Refinement in a Multi-Agent Framework for 3D Indoor Layout Synthesis [76.7196710324494]
3次元屋内レイアウト合成は仮想環境構築に不可欠である。
DisCoは、物理的および意味的な洗練を歪め、調整する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T16:30:37Z) - 3D Software Synthesis Guided by Constraint-Expressive Intermediate Representation [50.70705695129453]
本稿では,要求に敏感な3Dソフトウェア合成手法であるScenethesisを提案する。
Scenethesisは、ユーザ仕様と生成された3Dソフトウェアの間の形式的なトレーサビリティを維持している。
Scenethesisは、最先端の手法と比較して、BLIP-2視覚評価スコアが42.8%向上した。
論文 参考訳(メタデータ) (2025-07-24T17:58:03Z) - ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。
このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。
RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-06-27T15:03:17Z) - PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Scenes [30.417675568919552]
大規模な3Dセマンティックシーン生成は、主にボクセルに基づく表現に依存している。
プリミティブは、操作や構成が容易なコンパクトで粗い3D構造を使って、セマンティックなエンティティを表現する。
PrITTIは遅延拡散に基づくフレームワークで、プリミティブを作曲、制御可能、編集可能なシーンレイアウトを生成するための基本的な要素として活用する。
論文 参考訳(メタデータ) (2025-06-23T20:47:18Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。
Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。
ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-07-16T10:17:28Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - SCFusion: Real-time Incremental Scene Reconstruction with Semantic
Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。
我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文 参考訳(メタデータ) (2020-10-26T15:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。