論文の概要: EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing
- arxiv url: http://arxiv.org/abs/2410.12836v1
- Date: Thu, 03 Oct 2024 17:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:41:05.250494
- Title: EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing
- Title(参考訳): EditRoom: 構成可能な3Dルームレイアウト編集のためのLLMパラメタライズドグラフ拡散
- Authors: Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang,
- Abstract要約: 自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
- 参考スコア(独自算出の注目度): 114.14164860467227
- License:
- Abstract: Given the steep learning curve of professional 3D software and the time-consuming process of managing large 3D assets, language-guided 3D scene editing has significant potential in fields such as virtual reality, augmented reality, and gaming. However, recent approaches to language-guided 3D scene editing either require manual interventions or focus only on appearance modifications without supporting comprehensive scene layout changes. In response, we propose Edit-Room, a unified framework capable of executing a variety of layout edits through natural language commands, without requiring manual intervention. Specifically, EditRoom leverages Large Language Models (LLMs) for command planning and generates target scenes using a diffusion-based method, enabling six types of edits: rotate, translate, scale, replace, add, and remove. To address the lack of data for language-guided 3D scene editing, we have developed an automatic pipeline to augment existing 3D scene synthesis datasets and introduced EditRoom-DB, a large-scale dataset with 83k editing pairs, for training and evaluation. Our experiments demonstrate that our approach consistently outperforms other baselines across all metrics, indicating higher accuracy and coherence in language-guided scene layout editing.
- Abstract(参考訳): プロの3Dソフトウェアの急激な学習曲線と、大規模な3Dアセットを管理するための時間を要するプロセスを考えると、言語誘導型3Dシーン編集は、仮想現実、拡張現実、ゲームといった分野において大きな可能性を秘めている。
しかし,最近の言語指導型3Dシーン編集手法では,手作業による介入が必要か,外観修正のみにのみ焦点を絞っている。
そこで本稿では,手作業による介入を必要とせずに,自然言語コマンドによるさまざまなレイアウト編集を実行できる統合フレームワークであるEdit-Roomを提案する。
特に、EditRoomはコマンドプランニングにLarge Language Models(LLM)を活用し、拡散ベースのメソッドを使用してターゲットシーンを生成し、回転、変換、スケール、置換、追加、削除の6種類の編集を可能にする。
言語誘導型3Dシーン編集のためのデータ不足に対処するため,既存の3Dシーン合成データセットを拡張する自動パイプラインを開発し,83kの編集ペアを持つ大規模データセットであるEditRoom-DBを導入した。
実験により,本手法はすべての指標において,他のベースラインよりも常に優れており,言語指導によるシーンレイアウト編集において,高い精度と一貫性が示されることがわかった。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。
LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。
提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文 参考訳(メタデータ) (2024-06-06T08:53:01Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints [35.073500525250346]
我々はCtrl-Roomを提案する。Ctrl-Roomは、デザイナースタイルのレイアウトとテキストプロンプトから高忠実なテクスチャを持つ説得力のある3Dルームを生成できる。
Ctrl-Roomは、個々の家具アイテムのリサイズや移動といった多目的なインタラクティブな編集操作を可能にする。
論文 参考訳(メタデータ) (2023-10-05T15:29:52Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - OBJECT 3DIT: Language-guided 3D-aware Image Editing [27.696507467754877]
既存の画像編集ツールは、画像が投影される基礎となる3D幾何学を無視している。
画像中のオブジェクトは、下層の3Dシーンの文脈で、言語命令に従って編集されるべきである。
我々は,手続き的に生成された3Dシーンから作成した400Kの編集例からなるデータセットOBJECTをリリースした。
私たちのモデルでは、周囲の物体、表面、照明条件、影、物理的に表現可能な物体構成など、シーン全体の3D構成を理解する能力が印象的です。
論文 参考訳(メタデータ) (2023-07-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。