論文の概要: L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects
- arxiv url: http://arxiv.org/abs/2402.09052v1
- Date: Wed, 14 Feb 2024 09:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:06:30.495746
- Title: L3GO: Language Agents with Chain-of-3D-Thoughts for Generating
Unconventional Objects
- Title(参考訳): L3GO:非従来型オブジェクト生成のための3D-Thoughtsのチェーン付き言語エージェント
- Authors: Yutaro Yamada, Khyathi Chandu, Yuchen Lin, Jack Hessel, Ilker
Yildirim, Yejin Choi
- Abstract要約: 本稿では,3Dメッシュ生成を推論可能な3Dメッシュ生成手法であるL3GO(チェーン・オブ・3D思想)を用いた言語エージェントを提案する。
我々は,新しいベンチマークである Unconventionally Feasible Objects (UFO) と,Blender上に構築されたSimpleBlenv を開発した。
提案手法は,ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェントを上回る。
- 参考スコア(独自算出の注目度): 53.4874127399702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image generation models such as DALL-E 3 and Stable
Diffusion-XL demonstrate remarkable capabilities in generating images with
realistic and unique compositions. Yet, these models are not robust in
precisely reasoning about physical and spatial configurations of objects,
especially when instructed with unconventional, thereby out-of-distribution
descriptions, such as "a chair with five legs". In this paper, we propose a
language agent with chain-of-3D-thoughts (L3GO), an inference-time approach
that can reason about part-based 3D mesh generation of unconventional objects
that current data-driven diffusion models struggle with. More concretely, we
use large language models as agents to compose a desired object via
trial-and-error within the 3D simulation environment. To facilitate our
investigation, we develop a new benchmark, Unconventionally Feasible Objects
(UFO), as well as SimpleBlenv, a wrapper environment built on top of Blender
where language agents can build and compose atomic building blocks via API
calls. Human and automatic GPT-4V evaluations show that our approach surpasses
the standard GPT-4 and other language agents (e.g., ReAct and Reflexion) for 3D
mesh generation on ShapeNet. Moreover, when tested on our UFO benchmark, our
approach outperforms other state-of-the-art text-to-2D image and text-to-3D
models based on human evaluation.
- Abstract(参考訳): DALL-E 3やStable Diffusion-XLのような拡散に基づく画像生成モデルは、リアルでユニークな構成を持つ画像を生成する際、顕著な能力を示している。
しかし、これらのモデルは、物体の物理的および空間的構成について正確に推論する上では堅牢ではない。
本稿では,従来のデータ駆動拡散モデルが抱える非伝統的なオブジェクトの3次元メッシュ生成を推論する手法として,チェーンオブ3D思想(L3GO)を用いた言語エージェントを提案する。
より具体的には、3dシミュレーション環境内で試行錯誤によって望ましいオブジェクトを構成するエージェントとして、大きな言語モデルを使用します。
調査を容易にするため、新しいベンチマークである Unconventionally Feasible Objects (UFO) と、言語エージェントがAPI呼び出しを通じてアトミックなビルディングブロックを構築・構成できるBlender上に構築されたSimpleBlenvを開発した。
人為的および自動的なGPT-4V評価は、ShapeNet上での3Dメッシュ生成のための標準GPT-4および他の言語エージェント(例えばReActとReflexion)を超えていることを示している。
さらに、ufoベンチマークでテストすると、人間の評価に基づいて、最先端のテキスト対2d画像およびテキスト対3dモデルよりも優れています。
関連論文リスト
- ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z) - CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting [57.14748263512924]
CG3Dは、スケーラブルな3Dアセットを合成的に生成する手法である。
ガンマ放射場は、オブジェクトの合成を可能にするためにパラメータ化され、意味的および物理的に一貫したシーンを可能にする能力を持っている。
論文 参考訳(メタデータ) (2023-11-29T18:55:38Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - NAP: Neural 3D Articulation Prior [31.875925637190328]
本研究では,3次元合成対象モデルを合成する最初の3次元深部生成モデルであるNeural 3D Articulation Prior (NAP)を提案する。
そこで我々はまず,新しい調音木/グラフパラメタライゼーションを設計し,この表現に対して拡散減衰確率モデルを適用した。
分布が互いに影響を及ぼすような幾何構造と運動構造の両方を捉えるために,逆拡散過程を学習するためのグラフアテンション認知ネットワークを設計する。
論文 参考訳(メタデータ) (2023-05-25T17:59:35Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。