論文の概要: HOG-Layout: Hierarchical 3D Scene Generation, Optimization and Editing via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2604.10772v1
- Date: Sun, 12 Apr 2026 18:45:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.21064
- Title: HOG-Layout: Hierarchical 3D Scene Generation, Optimization and Editing via Vision-Language Models
- Title(参考訳): HOG-Layout:視覚言語モデルによる階層型3次元シーン生成、最適化、編集
- Authors: Haiyan Jiang, Deyu Zhang, Dongdong Weng, Weitao Song, Henry Been-Lirn Duh,
- Abstract要約: 3Dレイアウトの生成と編集は、Embodied AIと没入型VRインタラクションにおいて重要な役割を果たす。
本稿では,テキスト駆動型階層的シーン生成,最適化,リアルタイムシーン編集を可能にするHOGを提案する。
- 参考スコア(独自算出の注目度): 12.672507892169477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D layout generation and editing play a crucial role in Embodied AI and immersive VR interaction. However, manual creation requires tedious labor, while data-driven generation often lacks diversity. The emergence of large models introduces new possibilities for 3D scene synthesis. We present HOG-Layout that enables text-driven hierarchical scene generation, optimization and real-time scene editing with large language models (LLMs) and vision-language models (VLMs). HOG-Layout improves scene semantic consistency and plausibility through retrieval-augmented generation (RAG) technology, incorporates an optimization module to enhance physical consistency, and adopts a hierarchical representation to enhance inference and optimization, achieving real-time editing. Experimental results demonstrate that HOG-Layout produces more reasonable environments compared with existing baselines, while supporting fast and intuitive scene editing.
- Abstract(参考訳): 3Dレイアウトの生成と編集は、Embodied AIと没入型VRインタラクションにおいて重要な役割を果たす。
しかし、手作業による作成には面倒な労力が必要だが、データ駆動生成には多様性が欠けていることが多い。
大規模モデルの出現は3次元シーン合成の新しい可能性をもたらす。
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)を用いたテキスト駆動型階層的シーン生成,最適化,リアルタイムシーン編集を実現するHOG-Layoutを提案する。
HOG-Layoutは、検索拡張生成(RAG)技術によるシーンセマンティクスの一貫性と妥当性を改善し、物理的な一貫性を高める最適化モジュールを組み込み、推論と最適化を強化する階層表現を採用し、リアルタイム編集を実現する。
実験結果から,HOG-Layoutは既存のベースラインに比べて,より合理的な環境を実現する一方で,高速で直感的なシーン編集をサポートすることが示された。
関連論文リスト
- LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation [5.424048651554831]
テキストによる高品質で物理的に一貫した構成シーン生成を容易にするために,3Dガウススプラッティング(3DGS)を利用するフレームワークを提案する。
具体的には、テキストプロンプトが与えられた場合、シーングラフに変換し、初期構成型3Dガウスの密度とレイアウトを適応的に調整する。
シーングラフから指示された依存関係を抽出することにより、現実性と柔軟性の両方を確保するために、物理的およびレイアウトエネルギーを調整します。
論文 参考訳(メタデータ) (2025-02-04T02:51:37Z) - EditSplat: Multi-View Fusion and Attention-Guided Optimization for View-Consistent 3D Scene Editing with 3D Gaussian Splatting [3.9006270555948133]
MFG(Multi-view Fusion Guidance)とAGT(Attention-Guided Trimming)を統合したテキスト駆動3Dシーン編集フレームワークEditSplatを提案する。
我々のMFGは、拡散過程に不可欠な多視点情報を組み込むことにより、多視点整合性を確保する。
我々のAGTは、3DGSの明示的な表現を利用して、3Dガウスを選択的にプーンし、最適化し、最適化効率を向上し、正確で意味的にリッチな局所的な編集を可能にする。
論文 参考訳(メタデータ) (2024-12-16T07:56:04Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEditRoomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。