論文の概要: Holodeck: Language Guided Generation of 3D Embodied AI Environments
- arxiv url: http://arxiv.org/abs/2312.09067v2
- Date: Mon, 22 Apr 2024 20:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-04-24 19:25:53.162040
- Title: Holodeck: Language Guided Generation of 3D Embodied AI Environments
- Title(参考訳): Holodeck: 言語ガイドによる3DエボダイドAI環境の生成
- Authors: Yue Yang, Fan-Yun Sun, Luca Weihs, Eli VanderBilt, Alvaro Herrasti, Winson Han, Jiajun Wu, Nick Haber, Ranjay Krishna, Lingjie Liu, Chris Callison-Burch, Mark Yatskar, Aniruddha Kembhavi, Christopher Clark,
- Abstract要約: Holodeckは、ユーザに供給されたプロンプトを完全に自動でマッチさせる3D環境を生成するシステムである。
アンノテータは住宅シーンにおいて,手作業で設計した手続きベースラインよりもホロデックを好むことを示す。
また、Embodied AIにおけるHolodeckのエキサイティングな応用を実演し、人間の構築したデータを使わずに、新しいシーンをナビゲートするエージェントを訓練する。
- 参考スコア(独自算出の注目度): 84.16126434848829
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D simulated environments play a critical role in Embodied AI, but their creation requires expertise and extensive manual effort, restricting their diversity and scope. To mitigate this limitation, we present Holodeck, a system that generates 3D environments to match a user-supplied prompt fully automatedly. Holodeck can generate diverse scenes, e.g., arcades, spas, and museums, adjust the designs for styles, and can capture the semantics of complex queries such as "apartment for a researcher with a cat" and "office of a professor who is a fan of Star Wars". Holodeck leverages a large language model (i.e., GPT-4) for common sense knowledge about what the scene might look like and uses a large collection of 3D assets from Objaverse to populate the scene with diverse objects. To address the challenge of positioning objects correctly, we prompt GPT-4 to generate spatial relational constraints between objects and then optimize the layout to satisfy those constraints. Our large-scale human evaluation shows that annotators prefer Holodeck over manually designed procedural baselines in residential scenes and that Holodeck can produce high-quality outputs for diverse scene types. We also demonstrate an exciting application of Holodeck in Embodied AI, training agents to navigate in novel scenes like music rooms and daycares without human-constructed data, which is a significant step forward in developing general-purpose embodied agents.
- Abstract(参考訳): 3Dシミュレーション環境は、Embodied AIにおいて重要な役割を果たすが、その作成には専門知識と広範囲な手作業が必要で、多様性とスコープが制限される。
この制限を緩和するために,ユーザが提供するプロンプトを完全自動化する3D環境を生成するシステムであるHolodeckを提案する。
ホロデックは、例えば、アーケード、スパ、博物館などの多様なシーンを生成し、スタイルのデザインを調整し、「猫を持つ研究者のためのアパート」や「スター・ウォーズのファンである教授のオフィス」のような複雑なクエリのセマンティクスをキャプチャすることができる。
Holodeckは大きな言語モデル(GPT-4)を活用して、シーンがどのようなものかという常識的な知識を提供し、Objaverseから大量の3Dアセットを収集して、シーンを多様なオブジェクトで表示している。
オブジェクトの位置決めの課題に対処するため,GPT-4にオブジェクト間の空間的関係制約を生成し,それらの制約を満たすためにレイアウトを最適化する。
大規模な人的評価の結果,アノテータは住宅シーンにおいて,手作業で設計した手続きベースラインよりもホロデックを好んでおり,多様なシーンに対して高品質なアウトプットを生成できることがわかった。
また、Embodied AIにおけるHolodeckのエキサイティングな応用、音楽室や保育所のような新しいシーンを人間の構築データなしでナビゲートする訓練エージェント、そして汎用的なエンボディエージェントの開発において大きな前進を示す。
関連論文リスト
- EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents [85.77432303199176]
EmbodMocapは2つの動くiPhoneを使ったポータブルで安価なデータ収集パイプラインである。
私たちのキーとなるアイデアは、二重RGB-Dシーケンスを共同で校正し、人間とシーンの両方を再構築することです。
収集したデータに基づいて、我々は3つの具体的AIタスクを強化した: モノクラーヒューマン・シーン・リコンストラクション(モノクラーヒューマン・シーン・リコンストラクション)、メトリックスケールで世界空間に整合した人間とシーンを出力するフィードフォワードモデル、物理ベースのキャラクターアニメーション。
論文 参考訳(メタデータ) (2026-02-26T16:53:41Z) - SceneFoundry: Generating Interactive Infinite 3D Worlds [22.60801815197924]
SceneFoundryは、機能的な家具を備えたアパートスケールの3Dワールドを生成する言語誘導拡散フレームワークである。
本フレームワークは,多様なシーンタイプや環境にまたがって,構造的に妥当でセマンティック・コヒーレントで,機能的にインタラクティブな環境を生成する。
論文 参考訳(メタデータ) (2026-01-09T14:33:10Z) - SPATIALGEN: Layout-guided 3D Indoor Scene Generation [37.30623176278608]
本研究では,現実的でセマンティックに整合した室内シーンを生成するマルチビューマルチモーダル拡散モデルであるSpatialGenを提案する。
3次元レイアウトと参照画像が与えられたモデルでは、任意の視点から外観(カラー画像)、幾何学(シーン座標マップ)、意味(セマンティックセグメンテーションマップ)を合成する。
私たちは、コミュニティを力づけ、屋内のシーン理解と生成の分野を前進させるために、データとモデルをオープンソース化しています。
論文 参考訳(メタデータ) (2025-09-18T14:12:32Z) - HLG: Comprehensive 3D Room Construction via Hierarchical Layout Generation [31.010614667725843]
階層レイアウト生成(HLG)は,微細な3次元シーン生成のための新しい手法である。
HLGは、大規模な家具配置から複雑なオブジェクト配置まで、シーンレイアウトを精錬する、粗大できめ細かな階層的アプローチを採用した最初の企業である。
既存の手法と比較して,現実的な屋内シーンの生成において優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-25T09:32:57Z) - From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes [30.015378490907988]
Anywhere3D-Benchは2,886個の表現3D境界ボックスペアからなる総合的な3D視覚的グラウンドベンチマークである。
我々は,大規模言語モデルとともに,最先端の3次元視覚的グラウンドディング手法の評価を行った。
論文 参考訳(メタデータ) (2025-06-05T11:28:02Z) - HOSIG: Full-Body Human-Object-Scene Interaction Generation with Hierarchical Scene Perception [57.37135310143126]
HO SIGは階層的なシーン認識を通じて全体インタラクションを合成するための新しいフレームワークである。
我々のフレームワークは、自己回帰生成による運動長の無制限化をサポートし、手動による介入を最小限に抑える。
この研究は、シーン認識ナビゲーションとデクスタラスオブジェクト操作の間に重要なギャップを埋める。
論文 参考訳(メタデータ) (2025-06-02T12:08:08Z) - Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation [36.44409268300039]
Scenethesisはテキストベースのシーンプランニングと視覚誘導レイアウトの改良を統合したフレームワークである。
多様な、現実的で、物理的に妥当な3Dインタラクティブなシーンを生成し、仮想コンテンツの作成、シミュレーション環境、そしてAI研究に価値がある。
論文 参考訳(メタデータ) (2025-05-05T17:59:58Z) - SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving [67.49461023261536]
我々は3D Occupancyの世界で世界モデルOccWorldを学ぶための新しいフレームワークを学ぶ。
我々は同時にエゴカーの動きと周囲のシーンの進化を予測する。
OccWorldはインスタンスとマップを使わずに競合する計画結果を生成する。
論文 参考訳(メタデータ) (2023-11-27T17:59:41Z) - UrbanGIRAFFE: Representing Urban Scenes as Compositional Generative
Neural Feature Fields [22.180286908121946]
粗い3Dパノプティクスを用いて、3D認識生成モデルを導出するUrbanGIRAFFEを提案する。
私たちのモデルは、シーンを物、物、空に分解するので、構成的で制御可能です。
適切な損失関数を用いることで,多種多様な可制御性を持つ光リアルな3次元画像合成が容易となる。
論文 参考訳(メタデータ) (2023-03-24T17:28:07Z) - HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor
Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。
人間と環境の関係も研究され、対話をより現実的なものにしている。
論文 参考訳(メタデータ) (2022-03-17T10:05:55Z) - Human-Aware Object Placement for Visual Environment Reconstruction [63.14733166375534]
我々は,モノクラーRGBビデオからシーンの3次元再構成を改善するために,人間とシーンのインタラクションを活用することができることを示す。
私たちのキーとなるアイデアは、人がシーンを移動してそれと対話するにつれて、複数の入力イメージにまたがってHSIを蓄積する、ということです。
シーン再構成は,初期3次元の人物のポーズと形状推定の精度向上に有効であることを示す。
論文 参考訳(メタデータ) (2022-03-07T18:59:02Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。