論文の概要: Holodeck: Language Guided Generation of 3D Embodied AI Environments
- arxiv url: http://arxiv.org/abs/2312.09067v1
- Date: Thu, 14 Dec 2023 16:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:15:52.729516
- Title: Holodeck: Language Guided Generation of 3D Embodied AI Environments
- Title(参考訳): holodeck: 3次元具体化ai環境の言語誘導生成
- Authors: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti,
Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris
Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark
- Abstract要約: Holodeckは、ユーザに供給されたプロンプトを完全に自動でマッチさせる3D環境を生成するシステムである。
アンノテータは住宅シーンにおいて,手作業で設計した手続きベースラインよりもホロデックを好むことを示す。
また、Embodied AIにおけるHolodeckのエキサイティングな応用を実演し、人間の構築したデータを使わずに、新しいシーンをナビゲートするエージェントを訓練する。
- 参考スコア(独自算出の注目度): 85.8972029648394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D simulated environments play a critical role in Embodied AI, but their
creation requires expertise and extensive manual effort, restricting their
diversity and scope. To mitigate this limitation, we present Holodeck, a system
that generates 3D environments to match a user-supplied prompt fully
automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and
museums, adjust the designs for styles, and can capture the semantics of
complex queries such as "apartment for a researcher with a cat" and "office of
a professor who is a fan of Star Wars". Holodeck leverages a large language
model (GPT-4) for common sense knowledge about what the scene might look like
and uses a large collection of 3D assets from Objaverse to populate the scene
with diverse objects. To address the challenge of positioning objects
correctly, we prompt GPT-4 to generate spatial relational constraints between
objects and then optimize the layout to satisfy those constraints. Our
large-scale human evaluation shows that annotators prefer Holodeck over
manually designed procedural baselines in residential scenes and that Holodeck
can produce high-quality outputs for diverse scene types. We also demonstrate
an exciting application of Holodeck in Embodied AI, training agents to navigate
in novel scenes like music rooms and daycares without human-constructed data,
which is a significant step forward in developing general-purpose embodied
agents.
- Abstract(参考訳): 3Dシミュレーション環境は、Embodied AIにおいて重要な役割を果たすが、その創造には専門知識と広範な手作業が必要であり、多様性とスコープを制限する。
この制限を緩和するために,ユーザが提供するプロンプトを完全自動化する3D環境を生成するシステムであるHolodeckを提案する。
ホロデックは、アーケード、スパ、博物館などの多様なシーンを生成し、スタイルのデザインを調整し、「猫を持つ研究者のためのアパート」や「スター・ウォーズのファンである教授のオフィス」のような複雑なクエリのセマンティクスをキャプチャすることができる。
Holodeckは大きな言語モデル(GPT-4)を利用して、シーンがどのようなものかという常識的な知識を提供し、Objaverseから大量の3Dアセットを収集して、シーンを多様なオブジェクトで表示している。
オブジェクトの位置決めの課題に対処するため,GPT-4にオブジェクト間の空間的関係制約を生成し,それらの制約を満たすためにレイアウトを最適化する。
大規模人格評価の結果,アノテーション作成者は住宅シーンにおける手作業で設計した手続きベースラインよりもholodeckを好み,多様なシーンタイプに対して高品質なアウトプットを生成できることがわかった。
また、Embodied AIにおけるHolodeckのエキサイティングな応用、音楽室や保育所のような新しい場面で人間構築データなしでナビゲートする訓練エージェント、そして汎用的なエンボディエージェントの開発において大きな前進を示す。
関連論文リスト
- SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving [67.49461023261536]
我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
論文 参考訳(メタデータ) (2023-11-27T17:59:41Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z) - HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor
Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。
人間と環境の関係も研究され、対話をより現実的なものにしている。
論文 参考訳(メタデータ) (2022-03-17T10:05:55Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。