論文の概要: Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback
- arxiv url: http://arxiv.org/abs/2305.15808v1
- Date: Thu, 25 May 2023 07:43:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 16:35:40.511471
- Title: Towards Language-guided Interactive 3D Generation: LLMs as Layout
Interpreter with Generative Feedback
- Title(参考訳): 言語誘導型対話型3D生成に向けて:ジェネレーティブフィードバックを用いたレイアウトインタプリタとしてのLCM
- Authors: Yiqi Lin, Hao Wu, Ruichen Wang, Haonan Lu, Xiaodong Lin, Hui Xiong,
Lin Wang
- Abstract要約: 大きな言語モデル(LLM)は、印象的な推論、会話、ゼロショット生成能力を示している。
本稿では,LLMを3次元レイアウトインタプリタとして統合した言語誘導型対話型3D生成システムLI3Dを提案する。
また,大規模言語と視覚アシスタントのLLaVAを導入し,視覚的側面から生成的なフィードバックを提供することにより,生成したコンテンツの視覚的品質を向上させる。
- 参考スコア(独自算出の注目度): 20.151147653552155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating and editing a 3D scene guided by natural language poses a
challenge, primarily due to the complexity of specifying the positional
relations and volumetric changes within the 3D space. Recent advancements in
Large Language Models (LLMs) have demonstrated impressive reasoning,
conversational, and zero-shot generation abilities across various domains.
Surprisingly, these models also show great potential in realizing and
interpreting the 3D space. In light of this, we propose a novel language-guided
interactive 3D generation system, dubbed LI3D, that integrates LLMs as a 3D
layout interpreter into the off-the-shelf layout-to-3D generative models,
allowing users to flexibly and interactively generate visual content.
Specifically, we design a versatile layout structure base on the bounding boxes
and semantics to prompt the LLMs to model the spatial generation and reasoning
from language. Our system also incorporates LLaVA, a large language and vision
assistant, to provide generative feedback from the visual aspect for improving
the visual quality of generated content. We validate the effectiveness of LI3D,
primarily in 3D generation and editing through multi-round interactions, which
can be flexibly extended to 2D generation and editing. Various experiments
demonstrate the potential benefits of incorporating LLMs in generative AI for
applications, e.g., metaverse. Moreover, we benchmark the layout reasoning
performance of LLMs with neural visual artist tasks, revealing their emergent
ability in the spatial layout domain.
- Abstract(参考訳): 自然言語でガイドされた3Dシーンの生成と編集は、主に3D空間内の位置関係と体積変化を特定する複雑さのために課題となる。
大規模言語モデル(llm)の最近の進歩は、様々なドメインにわたる驚くべき推論、会話、ゼロショット生成能力を示している。
驚くべきことに、これらのモデルは3D空間の実現と解釈に大きな可能性を秘めている。
そこで,本研究では,3dレイアウトインタプリタとしてllmsを統合した言語誘導型対話型3d生成システムli3dを提案する。
具体的には,LLMに言語からの空間生成と推論をモデル化するよう促すために,境界ボックスとセマンティクスに基づく多目的レイアウト構造を設計する。
また,大規模言語および視覚アシスタントであるllavaを組み込んで,視覚面からの生成フィードバックを提供し,生成コンテンツの視覚的品質を向上させる。
LI3Dの有効性は,主に3次元生成と多ラウンドインタラクションによる編集において検証され,柔軟に2次元生成と編集に拡張できる。
様々な実験は、メタバースのような応用のための生成AIにLLMを組み込むことの潜在的な利点を実証している。
さらに,ニューラルビジュアルアーティストタスクを用いたllmsのレイアウト推論性能のベンチマークを行い,空間レイアウト領域におけるその創発的能力を明らかにする。
関連論文リスト
- Uni3D-LLM: Unifying Point Cloud Perception, Generation and Editing with
Large Language Models [71.2931570433261]
我々は,Large Language Model(LLM)を活用した統合フレームワークであるUni3D-LLMを導入し,ポイントクラウドシーン内での3次元認識,生成,編集のタスクを統合する。
Uni3D-LLMは自然言語の表現力を活用し、3Dオブジェクトの生成と編集の正確なコマンドを可能にする。
論文 参考訳(メタデータ) (2024-01-09T06:20:23Z) - LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文 参考訳(メタデータ) (2023-12-21T17:52:12Z) - GPT4Point: A Unified Framework for Point-Language Understanding and
Generation [76.61439685940272]
GPT4PointはMLLMフレームワーク内での3Dオブジェクトの理解と生成のための画期的なポイント言語マルチモーダルモデルである。
GPT4Pointは強力な3D MLLMであり、ポイントクラウドキャプションやQ&Aのような様々なポイントテキスト参照タスクをシームレスに実行できる。
幾何学的な形状や色を維持する低品質のポイントテキスト機能によって、高品質な結果が得られる。
論文 参考訳(メタデータ) (2023-12-05T18:59:55Z) - Visual Programming for Zero-shot Open-Vocabulary 3D Visual Grounding [61.08479715422018]
3D Visual Groundingはテキスト記述に基づく3Dオブジェクトのローカライズを目的としている。
ゼロショットオープン語彙3DVGのための新しいビジュアルプログラミング手法を提案する。
論文 参考訳(メタデータ) (2023-11-26T19:01:14Z) - 3D-GPT: Procedural 3D Modeling with Large Language Models [50.57513088909881]
命令駆動3Dモデリングのための大規模言語モデル(LLM)を利用するフレームワークである3D-GPTを紹介する。
3D-GPTは、3Dモデリングタスクをアクセス可能なセグメントに分割し、各タスクにアプエージェントを割り当てる。
我々の実証調査では、3D-GPTが解釈し、指示を実行し、信頼性の高い結果を提供するだけでなく、人間デザイナーと効果的に協力することを確認した。
論文 参考訳(メタデータ) (2023-10-19T17:41:48Z) - Multi-CLIP: Contrastive Vision-Language Pre-training for Question
Answering tasks in 3D Scenes [68.61199623705096]
一般的な言語知識と視覚概念を2次元画像から3次元シーン理解に適用するためのトレーニングモデルは、研究者が最近探求を始めたばかりの有望な方向である。
そこで本研究では,モデルによる3次元シーンポイントクラウド表現の学習を可能にする,新しい3次元事前学習手法であるMulti-CLIPを提案する。
論文 参考訳(メタデータ) (2023-06-04T11:08:53Z) - LayoutGPT: Compositional Visual Planning and Generation with Large
Language Models [98.81962282674151]
大規模言語モデル(LLM)は、テキスト条件からレイアウトを生成することで視覚的なプランナーとして機能する。
本稿では,スタイルシート言語におけるコンテキスト内視覚的デモンストレーションを構成する手法であるLayoutGPTを提案する。
論文 参考訳(メタデータ) (2023-05-24T17:56:16Z) - Visualization in the Era of Artificial Intelligence: Experiments for
Creating Structural Visualizations by Prompting Large Language Models [0.0]
大規模言語モデル(LLM)は、テキスト入力から人間に似たテキストや画像を生成することによって、自然言語処理に革命をもたらした。
LLMが2D/3Dビジュアライゼーションを生成できることを示す最初の実験を報告した。
論文 参考訳(メタデータ) (2023-05-05T09:16:59Z) - LERF: Language Embedded Radiance Fields [35.925752853115476]
Language Embedded Radiance Fields (LERF) は、CLIPのような市販のモデルからNeRFへの言語埋め込みを基盤とする手法である。
LERFは、トレーニング線に沿ってCLIP埋め込みをボリュームレンダリングすることで、NeRF内の密集したマルチスケール言語フィールドを学習する。
最適化後、LERFは広範囲の言語プロンプトに対してリアルタイムに3D関連性マップを抽出できる。
論文 参考訳(メタデータ) (2023-03-16T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。