Fugu-MT 論文翻訳(概要): SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model

論文の概要: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model

arxiv url: http://arxiv.org/abs/2506.07091v1
Date: Sun, 08 Jun 2025 11:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-10 16:33:10.670565
Title: SceneLCM: End-to-End Layout-Guided Interactive Indoor Scene Generation with Latent Consistency Model
Title（参考訳）: SceneLCM: 遅延一貫性モデルを用いたエンド・ツー・エンドレイアウト型対話型屋内シーン生成
Authors: Yangkai Lin, Jiabao Lei, Kui Jia,
Abstract要約: SceneLCMは、レイアウト設計のためにLarge Language Model(LLM)をシーン最適化のためにLatent Consistency Model(LCM)と同期するエンドツーエンドフレームワークである。 SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。
参考スコア（独自算出の注目度）: 45.648346391757336
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our project page: https://scutyklin.github.io/SceneLCM/. Automated generation of complex, interactive indoor scenes tailored to user prompt remains a formidable challenge. While existing methods achieve indoor scene synthesis, they struggle with rigid editing constraints, physical incoherence, excessive human effort, single-room limitations, and suboptimal material quality. To address these limitations, we propose SceneLCM, an end-to-end framework that synergizes Large Language Model (LLM) for layout design with Latent Consistency Model(LCM) for scene optimization. Our approach decomposes scene generation into four modular pipelines: (1) Layout Generation. We employ LLM-guided 3D spatial reasoning to convert textual descriptions into parametric blueprints(3D layout). And an iterative programmatic validation mechanism iteratively refines layout parameters through LLM-mediated dialogue loops; (2) Furniture Generation. SceneLCM employs Consistency Trajectory Sampling(CTS), a consistency distillation sampling loss guided by LCM, to form fast, semantically rich, and high-quality representations. We also offer two theoretical justification to demonstrate that our CTS loss is equivalent to consistency loss and its distillation error is bounded by the truncation error of the Euler solver; (3) Environment Optimization. We use a multiresolution texture field to encode the appearance of the scene, and optimize via CTS loss. To maintain cross-geometric texture coherence, we introduce a normal-aware cross-attention decoder to predict RGB by cross-attending to the anchors locations in geometrically heterogeneous instance. (4)Physically Editing. SceneLCM supports physically editing by integrating physical simulation, achieved persistent physical realism. Extensive experiments validate SceneLCM's superiority over state-of-the-art techniques, showing its wide-ranging potential for diverse applications.
Abstract（参考訳）: 私たちのプロジェクトページは、https://scutyklin.github.io/SceneLCM/です。ユーザープロンプトに合わせた、複雑なインタラクティブな屋内シーンの自動生成は、まだまだ難しい課題だ。既存の手法は屋内シーンの合成を実現する一方で、厳密な編集の制約、物理的不整合、過度な人的努力、シングルルームの制限、最適以下の材料品質に悩まされている。これらの制約に対処するため,Large Language Model (LLM) とLatent Consistency Model (LCM) を併用したレイアウト設計のためのエンドツーエンドフレームワークであるSceneLCMを提案する。提案手法はシーン生成を4つのモジュールパイプラインに分解する。テキスト記述をパラメトリック・ブループリント(3Dレイアウト)に変換するために,LLM誘導3次元空間推論を用いる。また, 反復型プログラム検証機構は, LLMによる対話ループを通してレイアウトパラメータを反復的に洗練し, (2)家具生成を行う。 SceneLCMは、LCMによって導かれる一貫性のある蒸留サンプリング損失であるConsistency Trajectory Smpling(CTS)を用いて、高速でセマンティックにリッチで高品質な表現を形成する。また, CTS損失が整合損失と等価であること, 蒸留誤差がオイラー解のトランケーション誤差で有界であること, 環境最適化の2つの理論的正当性を示す。我々はマルチレゾリューションテクスチャフィールドを用いてシーンの外観を符号化し、CTSロスによる最適化を行う。幾何的不均一な例において,幾何的テクスチャコヒーレンスを維持するために,アンカー位置へのクロスアテンディングによりRGBを予測する正規認識のクロスアテンションデコーダを導入する。 (4)Physically Editing SceneLCMは物理シミュレーションを統合することで物理的な編集をサポートし、永続的な物理リアリズムを実現した。広範な実験により、SceneLCMは最先端技術よりも優れており、多様な応用の可能性を示している。

関連論文リスト

3D Software Synthesis Guided by Constraint-Expressive Intermediate Representation [50.70705695129453]
本稿では,要求に敏感な3Dソフトウェア合成手法であるScenethesisを提案する。 Scenethesisは、ユーザ仕様と生成された3Dソフトウェアの間の形式的なトレーサビリティを維持している。 Scenethesisは、最先端の手法と比較して、BLIP-2視覚評価スコアが42.8%向上した。
論文参考訳（メタデータ） (2025-07-24T17:58:03Z)
ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文参考訳（メタデータ） (2025-07-24T10:07:31Z)
RoomCraft: Controllable and Complete 3D Indoor Scene Generation [51.19602078504066]
RoomCraftは、実際の画像、スケッチ、テキスト記述をコヒーレントな3D屋内シーンに変換するマルチステージパイプラインである。このアプローチでは,シーン生成パイプラインと制約駆動最適化フレームワークを組み合わせる。 RoomCraftは、リアルでセマンティックなコヒーレントで視覚的に魅力的な部屋レイアウトを生成する上で、既存の方法よりもはるかに優れています。
論文参考訳（メタデータ） (2025-06-27T15:03:17Z)
PrITTI: Primitive-based Generation of Controllable and Editable 3D Semantic Scenes [30.417675568919552]
大規模な3Dセマンティックシーン生成は、主にボクセルに基づく表現に依存している。プリミティブは、操作や構成が容易なコンパクトで粗い3D構造を使って、セマンティックなエンティティを表現する。 PrITTIは遅延拡散に基づくフレームワークで、プリミティブを作曲、制御可能、編集可能なシーンレイアウトを生成するための基本的な要素として活用する。
論文参考訳（メタデータ） (2025-06-23T20:47:18Z)
ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文参考訳（メタデータ） (2025-01-31T16:11:04Z)
SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation [14.214197948110115]
本稿では,SGIFormerという3次元インスタンスセグメンテーションのための新しい手法を提案する。 Semantic-Guided Mix Query (SMQ)とGeometric-enhanced Interleaving Transformer (GIT)デコーダで構成されている。 ScanNet V2、ScanNet200、そして挑戦的な高忠実度ScanNet++ベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-07-16T10:17:28Z)
Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文参考訳（メタデータ） (2024-05-31T17:54:52Z)
DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。 LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。 DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文参考訳（メタデータ） (2024-04-14T12:13:07Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2022-05-06T16:27:14Z)
SCFusion: Real-time Incremental Scene Reconstruction with Semantic Completion [86.77318031029404]
本研究では,シーン再構成とセマンティックシーン補完を段階的かつリアルタイムに共同で行うフレームワークを提案する。我々のフレームワークは、3Dグローバルモデルでセマンティックコンプリートを正確かつ効率的に融合させるために、占有マップを処理し、ボクセル状態を活用するように設計された新しいニューラルアーキテクチャに依存している。
論文参考訳（メタデータ） (2020-10-26T15:31:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。