論文の概要: GenEx: Generating an Explorable World
- arxiv url: http://arxiv.org/abs/2412.09624v2
- Date: Mon, 16 Dec 2024 22:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:35.865936
- Title: GenEx: Generating an Explorable World
- Title(参考訳): GenEx: 探索可能な世界を生成する
- Authors: Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen,
- Abstract要約: 我々は、その生成的想像力によって導かれる複雑なエンボディ世界探査を計画できるシステムGenExを紹介する。
GenExは、単一のRGB画像から3D一貫性のある想像環境全体を生成します。
GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施作業を行う。
- 参考スコア(独自算出の注目度): 59.0666303068111
- License:
- Abstract: Understanding, navigating, and exploring the 3D physical real world has long been a central challenge in the development of artificial intelligence. In this work, we take a step toward this goal by introducing GenEx, a system capable of planning complex embodied world exploration, guided by its generative imagination that forms priors (expectations) about the surrounding environments. GenEx generates an entire 3D-consistent imaginative environment from as little as a single RGB image, bringing it to life through panoramic video streams. Leveraging scalable 3D world data curated from Unreal Engine, our generative model is rounded in the physical world. It captures a continuous 360-degree environment with little effort, offering a boundless landscape for AI agents to explore and interact with. GenEx achieves high-quality world generation, robust loop consistency over long trajectories, and demonstrates strong 3D capabilities such as consistency and active 3D mapping. Powered by generative imagination of the world, GPT-assisted agents are equipped to perform complex embodied tasks, including both goal-agnostic exploration and goal-driven navigation. These agents utilize predictive expectation regarding unseen parts of the physical world to refine their beliefs, simulate different outcomes based on potential decisions, and make more informed choices. In summary, we demonstrate that GenEx provides a transformative platform for advancing embodied AI in imaginative spaces and brings potential for extending these capabilities to real-world exploration.
- Abstract(参考訳): 3D物理世界を理解し、ナビゲートし、探索することは、人工知能の開発において長年、中心的な課題であった。
本稿では, 環境に先立つ先駆的な想像力によって導かれる, 複雑な具体的世界探査を計画できるシステムであるGenExを導入することにより, この目標に向かって一歩踏み出した。
GenExは、1枚のRGB画像から3D一貫性のある想像環境全体を生成し、パノラマビデオストリームを通じて生み出す。
Unreal Engineからキュレートされたスケーラブルな3Dワールドデータを活用することで、生成モデルは物理的な世界で丸められます。
連続した360度環境を、ほとんど努力せずに捉え、AIエージェントが探索し、対話するための無限の風景を提供する。
GenExは高品質なワールドジェネレーションを実現し、長い軌道上で堅牢なループ一貫性を実現し、一貫性やアクティブな3Dマッピングといった強力な3D機能を示す。
世界の創造的な想像力によって、GPT支援エージェントは、ゴールに依存しない探索とゴール駆動ナビゲーションの両方を含む複雑な実施タスクを実行する。
これらのエージェントは、物理的な世界の見えない部分に関する予測予測を利用して、彼らの信念を洗練させ、潜在的な決定に基づいて異なる結果をシミュレートし、より情報的な選択を行う。
要約すると、GenExは、想像空間における具体的AIを前進させるための変換プラットフォームを提供し、これらの能力を現実世界の探索にまで拡張する可能性を秘めている。
関連論文リスト
- Generative World Explorer [28.135416905073313]
部分観察による計画は、AIの具体化における中心的な課題である。
我々は,エゴセントリックな世界探査フレームワークであるtextitGenerative World Explorer (Genex)$を紹介した。
Genexは、エージェントが大規模3D世界を精神的に探索し、その信念を更新するために想像された観察を得ることを可能にする。
論文 参考訳(メタデータ) (2024-11-18T18:59:31Z) - Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。
本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。
VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文 参考訳(メタデータ) (2024-03-21T06:14:46Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - V-IRL: Grounding Virtual Intelligence in Real Life [65.87750250364411]
V-IRLは、エージェントが仮想的で現実的な環境で現実世界と対話することを可能にするプラットフォームである。
私たちのプラットフォームは、様々な実践的なタスクを達成できるエージェントを開発するための遊び場として役立ちます。
論文 参考訳(メタデータ) (2024-02-05T18:59:36Z) - Progress and Prospects in 3D Generative AI: A Technical Overview
including 3D human [51.58094069317723]
本稿は,2023年後半に主に刊行された関連論文の概要と概要を概説することを目的とする。
最初は、AIが生成したオブジェクトモデルを3Dで議論し、続いて生成された3Dの人間モデル、そして最後に生成された3Dの人間の動きを、決定的な要約と未来へのビジョンで結論付ける。
論文 参考訳(メタデータ) (2024-01-05T03:41:38Z) - Beyond Reality: The Pivotal Role of Generative AI in the Metaverse [98.1561456565877]
本稿では、生成型AI技術がMetaverseをどう形成しているかを包括的に調査する。
我々は、AI生成文字による会話インタフェースを強化しているChatGPTやGPT-3といったテキスト生成モデルの応用を探求する。
また、現実的な仮想オブジェクトを作成する上で、Point-EやLumimithmicのような3Dモデル生成技術の可能性についても検討する。
論文 参考訳(メタデータ) (2023-07-28T05:44:20Z) - GINA-3D: Learning to Generate Implicit Neural Assets in the Wild [38.51391650845503]
GINA-3Dは、カメラとLiDARセンサーの実際の運転データを使用して、多様な車や歩行者の3D暗黙的な神経資産を作成する生成モデルである。
車両と歩行者の1.2万枚以上の画像を含む大規模オブジェクト中心データセットを構築した。
生成した画像とジオメトリの両面において、品質と多様性の最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2023-04-04T23:41:20Z) - HumanGen: Generating Human Radiance Fields with Explicit Priors [19.5166920467636]
HumanGenは、詳細な幾何学とリアルなフリービューレンダリングを備えた、新しい3Dヒューマンジェネレーションスキームである。
アンカーイメージ」の設計を通じて,3次元世代と2次元ジェネレータと3次元再構成器の様々な先行概念を明示的に結合する。
論文 参考訳(メタデータ) (2022-12-10T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。