Fugu-MT 論文翻訳(概要): Towards Language-guided Interactive 3D Generation: LLMs as Layout Interpreter with Generative Feedback

論文の概要: Towards Language-guided Interactive 3D Generation: LLMs as Layout Interpreter with Generative Feedback

arxiv url: http://arxiv.org/abs/2305.15808v1
Date: Thu, 25 May 2023 07:43:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-26 16:35:40.511471
Title: Towards Language-guided Interactive 3D Generation: LLMs as Layout Interpreter with Generative Feedback
Title（参考訳）: 言語誘導型対話型3D生成に向けて:ジェネレーティブフィードバックを用いたレイアウトインタプリタとしてのLCM
Authors: Yiqi Lin, Hao Wu, Ruichen Wang, Haonan Lu, Xiaodong Lin, Hui Xiong, Lin Wang
Abstract要約: 大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
参考スコア（独自算出の注目度）: 20.151147653552155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generating and editing a 3D scene guided by natural language poses a challenge, primarily due to the complexity of specifying the positional relations and volumetric changes within the 3D space. Recent advancements in Large Language Models (LLMs) have demonstrated impressive reasoning, conversational, and zero-shot generation abilities across various domains. Surprisingly, these models also show great potential in realizing and interpreting the 3D space. In light of this, we propose a novel language-guided interactive 3D generation system, dubbed LI3D, that integrates LLMs as a 3D layout interpreter into the off-the-shelf layout-to-3D generative models, allowing users to flexibly and interactively generate visual content. Specifically, we design a versatile layout structure base on the bounding boxes and semantics to prompt the LLMs to model the spatial generation and reasoning from language. Our system also incorporates LLaVA, a large language and vision assistant, to provide generative feedback from the visual aspect for improving the visual quality of generated content. We validate the effectiveness of LI3D, primarily in 3D generation and editing through multi-round interactions, which can be flexibly extended to 2D generation and editing. Various experiments demonstrate the potential benefits of incorporating LLMs in generative AI for applications, e.g., metaverse. Moreover, we benchmark the layout reasoning performance of LLMs with neural visual artist tasks, revealing their emergent ability in the spatial layout domain.
Abstract（参考訳）: 自然言語でガイドされた3Dシーンの生成と編集は、主に3D空間内の位置関係と体積変化を特定する複雑さのために課題となる。大規模言語モデル(llm)の最近の進歩は、様々なドメインにわたる驚くべき推論、会話、ゼロショット生成能力を示している。驚くべきことに、これらのモデルは3D空間の実現と解釈に大きな可能性を秘めている。そこで,本研究では,3dレイアウトインタプリタとしてllmsを統合した言語誘導型対話型3d生成システムli3dを提案する。具体的には,LLMに言語からの空間生成と推論をモデル化するよう促すために,境界ボックスとセマンティクスに基づく多目的レイアウト構造を設計する。また,大規模言語および視覚アシスタントであるllavaを組み込んで,視覚面からの生成フィードバックを提供し,生成コンテンツの視覚的品質を向上させる。 LI3Dの有効性は,主に3次元生成と多ラウンドインタラクションによる編集において検証され,柔軟に2次元生成と編集に拡張できる。様々な実験は、メタバースのような応用のための生成AIにLLMを組み込むことの潜在的な利点を実証している。さらに,ニューラルビジュアルアーティストタスクを用いたllmsのレイアウト推論性能のベンチマークを行い,空間レイアウト領域におけるその創発的能力を明らかにする。

関連論文リスト

Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文参考訳（メタデータ） (2024-12-03T06:15:04Z)
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文参考訳（メタデータ） (2024-11-26T01:54:52Z)
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models [62.85566496673856]
この研究は、テキストで事前訓練された大規模言語モデル(LLM)の機能を拡張して、統一モデル内で3Dメッシュを生成することを検討する。主な課題は、3DメッシュデータをLLMがシームレスに処理できる離散トークンに効果的にトークン化することだ。我々の研究は、LLMがテキストベースのフォーマットで3Dメッシュ生成のための複雑な空間知識を得るために微調整できることを示す最初のものである。
論文参考訳（メタデータ） (2024-11-14T17:08:23Z)
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models [45.28780381341979]
Spartun3Dという,様々な位置空間推論タスクを組み込んだスケーラブルな位置位置3Dデータセットを導入する。また,Spartun3D-LLMを提案する。これは既存の3次元LLM上に構築されているが,新しい位置空間アライメントモジュールと統合されている。
論文参考訳（メタデータ） (2024-10-04T19:22:20Z)
VP-LLM: Text-Driven 3D Volume Completion with Large Language Models through Patchification [56.211321810408194]
大規模言語モデル(LLM)はマルチモーダル理解および生成タスクにおいて大きな可能性を示している。本稿では,LLMを利用して条件付き3D補完を行うVolume Patch LLM(VP-LLM)を提案する。以上の結果から,LLMが複雑なテキスト命令を解釈し,3Dオブジェクトを理解する能力は,最先端の拡散に基づく3Dコンプリートモデルに勝るものであることが示唆された。
論文参考訳（メタデータ） (2024-06-08T18:17:09Z)
LLplace: The 3D Indoor Scene Layout Generation and Editing via Large Language Model [58.24851949945434]
LLplace は軽量な微調整のオープンソース LLM Llama3 に基づく新しい3D屋内シーンレイアウトデザイナである。 LLplaceは、空間的関係の先行とコンテキスト内例の必要性を回避し、効率的で信頼性の高い部屋レイアウト生成を可能にする。提案手法は,高品質な3D設計ソリューションを実現する上で,LLplaceがインタラクティブに3D屋内レイアウトを効果的に生成・編集できることを示す。
論文参考訳（メタデータ） (2024-06-06T08:53:01Z)
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。 3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文参考訳（メタデータ） (2024-05-16T16:59:58Z)
GPT4Point: A Unified Framework for Point-Language Understanding and Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。 GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文参考訳（メタデータ） (2023-12-05T18:59:55Z)
Visualization in the Era of Artificial Intelligence: Experiments for Creating Structural Visualizations by Prompting Large Language Models [0.0]
大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって、自然言語処理に革命をもたらした。 LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。
論文参考訳（メタデータ） (2023-05-05T09:16:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。